Rellenar huecos en los datos con interpolación de áreas

Interpolar el porcentaje de personas mayores en Polonia

Si conoce los valores de la mayoría de las entidades de su dataset, puede usarlos para predecir valores continuos en toda el área. Lo hará para representar cartográficamente la distribución espacial de las personas mayores de Polonia.

  1. Descargue el paquete de proyecto FillGaps.
  2. Busque el archivo descargado en su equipo. Haga doble clic en FillGaps.ppkx para abrirlo.
    Nota:

    Si no tiene acceso a ArcGIS Pro o una cuenta de organización de ArcGIS, consulte las opciones de acceso a software.

    El proyecto se abre en ArcGIS Pro.

    Mapa de Polonia con los powiaty coloreados por porcentaje de personas mayores. 10 polígonos están vacíos

    Este mapa muestra los powiaty, que son unidades administrativas similares a los condados, de Polonia. Los polígonos están coloreados para representar el porcentaje de la población de 65 años o más. Lamentablemente, los datos están incompletos. Diez powiaty no contienen ningún valor para el porcentaje de personas mayores.

    Estos datos espaciales se pueden encontrar en ArcGIS Living Atlas of the World. Los valores del porcentaje de personas mayores fueron facilitados por Statistics Poland (los valores que faltaban se eliminaron artificialmente para los fines de este tutorial).

    A menudo, los datos demográficos son difíciles de modelar con geoestadísticas porque las áreas urbanas muestran patrones considerablemente distintos de los de las rurales. En este caso, la variación espacial en estos datos es relativamente homogénea, sin divisiones drásticamente distintas. Esto significa que los datos pueden ser adecuados para las geoestadísticas.

  3. En la cinta, haga clic en la pestaña Análisis. En el grupo Flujos de trabajo, haga clic en Geostatistical Wizard.

    Botón Geostatistical Wizard en la pestaña Apariencia de la cinta

    Aparece la ventana Geostatistical Wizard.

  4. En la ventana Geostatistical Wizard, en Métodos de estadísticas geográficas, elija Interpolación de área.

    La mayoría de los métodos de interpolación requieren datos de puntos como entrada, pero la interpolación de área utiliza polígonos. En este tutorial, se usan polígonos que están casi completos y que encajan como piezas de un puzle. También puede utilizar polígonos que estén ampliamente dispersos o superpuestos. Por ejemplo, puede tener datos que representen observaciones de aves, que se almacenan en polígonos para el terreno cubierto por cada observador.

    Nota:

    Puede obtener más información sobre este método de estadísticas geográficas en ¿Qué es la interpolación de área?

    La interpolación de área procesará los valores de forma diferente si los declara como promedios, tasas o eventos. Va a cartografiar el porcentaje de la población mayor de una determinada edad, lo cual es una tasa.

  5. En Dataset de entrada 1, en Tipo, elija Índice. En Dataset de origen, elija Powiaty_Seniors.
  6. En Campo de recuento, elija 2017 Senior Population y, en Campo de población, elija 2017 Total Population.

    Interpolación de área seleccionado en Geostatistical Wizard con Tipo definido como Índice

  7. Haga clic en Siguiente.

    La siguiente ventana muestra un gráfico de covarianza. Las cruces azules representan los datos sin ningún modelado. La línea azul representa el modelo que se utilizará para predecir el porcentaje de personas mayores en toda el área. Desea editar los parámetros del modelo hasta que la línea del modelo siga la ruta de las cruces y el 90 por ciento de las cruces estén dentro de los intervalos de confianza rojos. En este momento, este no es el caso.

    Gráfico de covarianza

    Además de que la línea no sigue de cerca las cruces, existen dos cruces que quedan muy lejos de la ruta. En muchas situaciones, no podrá lograr un modelo ideal, pero puede intentar aproximarse lo más cerca posible. Un buen punto de partida es reducir el tamaño de intervalo. Con ello se reducirá el área en la que se busca cuando se muestrea para generar las cruces azules.

  8. En Propiedades generales, en Tamaño de intervalo, escriba 12000.

    El modelo cambia. Sin embargo, las cruces ahora están aún más alejadas de los intervalos de confianza.

    Gráfico de covarianza

    A continuación, intentará mejorar el modelo cambiando su forma.

  9. En Modelo, elija Estable.
    Nota:

    Los modelos Estable y K de Bessel a menudo dan el mejor resultado, pero también tardan más tiempo en procesarse.

    Gráfico de covarianza con Modelo establecido en Estable

    Lograr un modelo perfecto puede ser difícil o incluso imposible, especialmente si está trabajando con datos demográficos en lugar de un fenómeno natural. En este escenario, aunque solo una de las cruces queda dentro de los intervalos de confianza, la línea del modelo sigue las cruces relativamente cerca. Este modelo no es perfecto, pero es un equilibrio adecuado.

  10. Haga clic en Siguiente.

    La siguiente ventana contiene un mapa de vista previa.

    Página Vecindario de búsqueda de Geostatistical Wizard con los polígonos vecinos resaltados

  11. Haga clic en distintas partes de este mapa de vista previa.

    El mapa resalta los polígonos vecinos que se utilizarán para determinar el valor predicho para la ubicación en la que hizo clic. Los polígonos de color rojo se ponderarán más en el análisis que aquellos de color verde.

  12. Haga clic en Siguiente.

    Se abre la página Validación cruzada. La validación cruzada evalúa la precisión de una superficie de predicción. Lo hace eliminando un único polígono del dataset y utilizando los datos restantes para predecir un valor dentro del polígono eliminado.

    Resultados de Validación cruzada con gráfico de dispersión Predicted y valores Resumen

    El gráfico de dispersión Predicted de este modelo no tiene buen aspecto. Lo ideal sería que los valores rojos siguieran la tendencia de las líneas de color azul y gris. Su gráfico se parece más a una nube de puntos aleatoria. Por otro lado, los valores que aparecen en la pestaña Resumen tienen buen aspecto. Todos los números deben estar cerca de cero, excepto en Root-Mean-Square Standardized, que debe estar cerca de 1. El valor de Root-Mean-Square de 0,02 significa que la proporción predicha de ciudadanos mayores tendrá una imprecisión promedio del 2 por ciento respecto del valor real. Este es un margen de error razonable. Estos valores indican mejor la calidad del modelo que el gráfico de dispersión.

  13. Haga clic en Finalizar. En la ventana Informe de método, haga clic en Aceptar.

    La capa interpolada se agrega al mapa.

  14. En el panel Contenido, desactive Powiaty_Seniors y active Powiaty_Seniors outlines.

    Las áreas con contornos intensos de color negro son las que carecen de datos.

    Superficie interpolada naranja y azul bajo los contornos de powiaty

Crear polígonos a partir de la interpolación

La interpolación que ha creado es continua e ignora los contornos de los polígonos. Las geoestadísticas han suavizado los datos demográficos para crear una superficie gradual. Aunque pueden no coincidir con los datos conocidos con precisión, interpolaciones homogéneas como esta resultan con frecuencia más adecuadas a la hora de predecir valores desconocidos.

A continuación, convertirá la superficie de interpolación continua en polígonos.

  1. En la cinta, haga clic en la pestaña Mapa. En el grupo Navegar, haga clic en Marcadores y seleccione Kluczborski.

    La galería Marcador abierta desde la pestaña Mapa de la cinta

    El mapa navega hasta el powiat de Kluczborski.

    El powiat de Kluczborski cubre cuatro colores en la capa de estadísticas geográficas subyacente

    La capa Interpolación de área es una capa de estadísticas geográficas, lo que significa que cada ubicación del mapa tiene un valor ligeramente diferente. Algunos de los polígonos que debe rellenar, como este, tienen un amplio rango de valores predichos. Convertirá esta superficie predicha en una capa de polígono con un único valor predicho para cada powiat.

  2. En la cinta, haga clic en la pestaña Análisis. En el grupo Geoprocesamiento, haga clic en Herramientas.

    Seleccionar herramientas de geoprocesamiento

    Se abre el panel Geoprocesamiento.

  3. En el panel Geoprocesamiento, en la barra de búsqueda, escriba Capa de interpolación de área y en la lista de resultados elija la herramienta De capa de interpolación de área a polígonos.
  4. En la herramienta De capa de interpolación de área a polígonos, introduzca lo siguiente:
    • En Capa de estadísticas geográficas de interpolación de área de entrada, elija Interpolación de área.
    • En Entidades poligonales de entrada, elija Powiaty_Seniors.
    • En Clase de entidad poligonal de salida, cambie el nombre de salida por Poligonos_Interpolados. Asegúrese de incluir el guion bajo.

    Herramienta De capa de interpolación de área a polígonos con los parámetros rellenos

  5. Haga clic en Ejecutar.

    La capa Interpolated_Polygons se agrega al mapa.

  6. En la cinta, haga clic en la pestaña Mapa. En el grupo Navegar, haga clic en el botón Extensión completa para volver a la vista predeterminada del mapa.

    Botón Extensión completa en la pestaña Mapa de la cinta

  7. En el panel Contenido, arrastre la capa Poligonos_Interpolados debajo de la capa Powiaty_Seniors outlines.

    La capa Interpolated_Polygons arrastrada debajo de la capa de contornos Powiaty_Seniors

  8. Desactive Interpolación de área.

    Ahora tiene un valor para el porcentaje de personas mayores en cada polígono.

    El panel Contenido y el mapa con contornos Powiaty_Seniors y Poligonos_Interpolados como las únicas capas visibles

    Aunque tiene los valores reales para la mayoría de esos polígonos, solo va a usar los valores predichos para 10 de ellos. Seleccionará los 10 polígonos cuyo valor falta y utilizará la herramienta Calcular campo para agregar los valores de solamente estos polígonos.

  9. Haga clic con el botón derecho en Poligonos_Interpolados y elija Tabla de atributos.

    Se abre la tabla de atributos. Contiene todos los datos de la capa Powiaty_Seniors y también tiene tres campos nuevos: Included, Predicted y Standard Error.

    Columnas Included, Predicted y Standard Error de la tabla de atributos

  10. Haga doble clic en el encabezado de la columna Percent Seniors para ordenarlo.

    Encabezado de la columna Percent Seniors de la tabla de atributos

    Ahora, todos los registros vacíos están en la parte superior de la tabla. A continuación, reemplazará estos valores <Null> por los datos del campo Predicted.

  11. Seleccione todas las filas en las que falten datos de personas mayores.
    Nota:

    Haga clic en el número de fila del primer registro y seleccione varias filas, pulse la tecla Mayús o arrastre el cursor por los números de las filas que quiera seleccionar. También puede utilizar la herramienta Seleccionar por atributos.

    Filas donde Percent Seniors es Null seleccionadas en la tabla de atributos

  12. En la parte superior de la tabla de atributos, haga clic en el botón Calcular.

    El botón Calcular en la parte superior de la tabla de atributos. Se seleccionan 10 filas

    La herramienta Calcular campo se abre en una ventana emergente. El cálculo del campo solo se aplicará a las filas seleccionadas.

  13. En Nombre de campo, elija Percent Seniors.

    Calcular campo en el panel Geoprocesamiento, con Nombre de campo establecido como Percent Seniors

  14. En la lista Campos, desplácese hacia abajo y haga doble clic en Predicted.

    El cuadro Percent Seniors = se rellena con !Predicted! Esto tomará los valores del campo Predicted y los pegará en el campo Percent Seniors. Sin embargo, los valores existentes en estos dos campos se formatean como valores decimales, no como valores porcentuales. Para convertirlos, multiplicará los valores por 100.

  15. Después de !Predicted!, escriba *100.

    Cuadro Percent Seniors = establecido en !Predicted! * 100

  16. Haga clic en Aplicar.
  17. En la tabla de atributos, haga clic en el botón Mostrar registros seleccionados.

    El botón Mostrar registros seleccionados

    Los valores <Null> de la columna Percent Seniors se han reemplazado. Las filas no seleccionadas permanecen sin cambios.

    Tabla de atributos que muestra los nuevos valores de Percent Seniors en las diez filas seleccionadas

  18. En la parte superior de la tabla de atributos, haga clic en Borrar para borrar la selección.

    El botón Borrar en la parte superior de la tabla de atributos

  19. Cierre la tabla de atributos.

Simbolizar el mapa

Por último, simbolizará la nueva capa para que coincida con la original. En lugar de configurar los parámetros de simbología de uno en uno, los importará desde la capa Powiaty_Seniors.

  1. En el panel Contenido, desactive los contornos Powiaty_Seniors y haga clic en Poligonos_Interpolados para seleccionarla.
  2. En la cinta, en la pestaña Capa de entidades del grupo Dibujo, haga clic en Importar.

    Botón Importar en la pestaña Apariencia de la cinta

    Aparece la ventana Importar simbología.

  3. En la ventana Importar simbología, en Capa de simbología, elija Powiaty_Seniors.

    La herramienta Importar simbología con Capa de simbología establecida en Powiaty_Seniors

  4. Haga clic en Aplicar y luego en Aceptar.

    La simbología de Areal_Interpolation_Polygons coincide ahora con la de Powiaty_Seniors, su capa inicial, pero ya no hay agujeros en los datos.

    Mapa de Polonia con los powiaty coloreados por porcentaje de personas mayores, sin huecos

  5. En la barra de herramientas de acceso rápido, haga clic en el botón Guardar.

    Botón Guardar en la barra de herramientas de acceso rápido

El proceso sustituir valores para reemplazar los datos que faltan se denomina imputación. A menudo, los valores se imputan utilizando el promedio del dataset restante. Cuando los datos son espaciales, dispone de mejores opciones, porque puede suponer que las cosas que están más cerca entre sí son más similares que las cosas que están más separadas. En este tutorial, ha utilizado la interpolación de área para crear una superficie continua en Polonia para modelar el porcentaje de población mayor de 65 años. A continuación, ha muestreado a partir de esa superficie para predecir valores para los polígonos a los que les faltaban datos.

No olvide indicar a los lectores del mapa que algunos de los valores son imputados. Esto se puede hacer con etiquetas, una lista o simbología. Si su mapa está incluido en un informe, puede describir el método de imputación.

La herramienta Rellenar los valores que faltan puede realizar la misma tarea. En algunos datasets, esta herramienta dará mejores resultados. En otros, las geoestadísticas serán mejores. Resulta difícil saberlo hasta que haya probado ambas cosas, pero, si la transición espacial entre los valores no es homogénea, se recomienda Rellenar los valores que faltan.

Nota:

Si desea plantearse un reto adicional, busque la herramienta Rellenar los valores que faltan en el panel Geoprocesamiento y utilícela para imputar los valores que faltan en la capa Powiaty_Seniors. Compare sus resultados con los valores reales de Powiaty_full_dataset, al cual puede acceder abriendo el panel Catálogo, expandiendo la carpeta Mapas y haciendo doble clic en el mapa Dataset completo.

Obtenga más información en Rellenar los valores que faltan (Minería de patrones en espacio-tiempo) y este artículo de ArcUser: Dealing with Missing Data

Encontrará más tutoriales en la galería de tutoriales.