Explorar los datos
En este tutorial, adoptará el rol de un analista de datos que trabaja con resultados de análisis de niveles de plomo en sangre. Debe preparar los datos para analizarlos, visualizarlos y compartirlos. Los datos se utilizarán con fines distintos por grupos diferentes. Algunos miembros del personal necesitan acceder a los datos a nivel de punto para las operaciones, como la administración de casos y las evaluaciones de emplazamientos. Otras personas necesitan agregar los datos para informar las comunicaciones con los directivos, mientras que algunas comunicaciones se compartirán con el público. Otros necesitan analizar los cambios a lo largo del tiempo y hacer un recorrido por los resultados de las intervenciones y las medidas de mitigación. Dado que las leyes de privacidad protegen los datos de los pacientes, deberá preparar otros productos de datos derivados utilizando otras estrategias de disociación.
Los datos de este tutorial son ficticios. Se han creado solo para demostrar el flujo de trabajo de este tutorial. Se han diseñado de forma que resulten plausible para el flujo de trabajo y tienen una estructura similar a los datos que se podrían utilizar en esta situación; sin embargo, dadas las limitaciones legales para compartir datos reales de este tipo, se han inventado en su totalidad. No utilice estos datos para ningún trabajo real. No intente sacar conclusiones ni tomar decisiones reales basándose en estos datos. No utilice estos datos para entrenar modelos de IA ni de ML, ya que arrojarán resultados inexactos. Las direcciones de este dataset son direcciones reales con el fin de hacer posible una demostración de la geocodificación y ofrecer datos plausibles para una disociación, si bien los datos no tienen ninguna relación real con estas direcciones. Todos los nombres o valores de atributos asociados a estas direcciones en los datasets son inventados y no guardan relación alguna con personas o condiciones reales de estas ubicaciones.
Descargar e inspeccionar los datos
En primer lugar, descargará y examinará los datos.
- Descargue los datos de proyecto comprimidos Blood_Lead_Levels_Zipped_Folder.zip.
Se descarga en su equipo un archivo llamado Blood_Lead_Levels_Zipped_Folder.zip.
Dependiendo de su navegador y de su configuración, es posible que se guarde en su carpeta Descargas o en su Escritorio.
- Localice el archivo descargado en su equipo y utilice una utilidad zip para extraer el archivo zip a una carpeta. Especifique la ubicación de la carpeta de salida y haga clic en Siguiente.
Se trata de un archivo zip protegido por contraseña. Aparece una ventana de contraseña.
- En Contraseña, introduzca la contraseña I_Understand_This_Is_Fictitious_Data y haga clic en Aceptar.
El uso de esta contraseña indica que entiende que los datos son ficticios.
El archivo zip se extrae a su equipo en forma de una carpeta.
- Abra la carpeta en la que extrajo el archivo zip.
Contiene un archivo llamado BloodLeadLevels.ppkx. Un archivo .ppkx es un paquete de proyecto de ArcGIS Pro, un archivo comprimido para compartir proyectos que pueden contener mapas, datos y otros archivos que puede abrir en ArcGIS Pro.
- Haga doble clic en BloodLeadLevels.ppkx para abrirlo en ArcGIS Pro. Si se le pide, inicie sesión con su cuenta de ArcGIS.
Aparece un mapa de Sacramento, California. La capa de puntos ficticia High_Blood_Level_Results muestra las ubicaciones de los domicilios de los niños que presentaban altos niveles de plomo en sangre.
Su programa de vigilancia y mitigación del plomo utiliza los resultados de los análisis de sangre y la ubicación de cada paciente para investigar los orígenes de la exposición al plomo en los hogares de estos niños. Estos datos también se utilizan para investigar la posible exposición de los miembros de la familia y para rastrear las fuentes de plomo en el trabajo, los centros educativos y las ubicaciones de la comunidad.
- Si la tabla de atributos High_Blood_Level_Results aún no está abierta, en el panel Contenido, haga clic con el botón derecho en High_Blood_Level_Results y haga clic en Tabla de atributos.
Muchos países han promulgado políticas para proteger la privacidad individual de la información sensible, como los datos financieros y sanitarios. En Estados Unidos, la Ley de Portabilidad y Responsabilidad de los Seguros Sanitarios (HIPAA, por sus siglas en inglés) se promulgó en 1996 y sirve de guía principal para las prácticas seguras en materia de datos sanitarios.
El Departamento de Salud y Servicios Humanos de los EE. UU. define la Información de Salud Protegida (PHI, por sus sigles en inglés) como "la información sanitaria identificable individualmente que posee o transmite una entidad cubierta o su socio comercial, en cualquier forma o contenido multimedia, ya sea electrónico, en papel u oral". La información sanitaria identificable individualmente abarca los datos demográficos relacionados con:
- El estado o la salud física o mental pasada, presente o futura del individuo
- La prestación de asistencia sanitaria a un individuo, o
- El abono pasado, presente o futuro de prestaciones de asistencia sanitaria al individuo
Además, es aquella información que identifique a la persona o respecto de la cual existan motivos razonables para creer que puede utilizarse para identificarla. La información sanitaria identificable individualmente abarca muchos identificadores comunes (por ejemplo, nombre, dirección, fecha de nacimiento, número de la Seguridad Social)".
- Examine los atributos de la tabla.
La capa contiene datos ficticios de domicilio, nombre y apellidos, fecha de nacimiento, edad, raza, etnia, género, resultados de análisis de sangre y año de análisis. Si estos datos hubieran sido reales, se considerarían información privada y altamente personal sobre el estado de salud, la identidad y la ubicación exacta de los menores.
Se trata de información útil y valiosa, pero debe manejarse con cuidado, de acuerdo con las leyes de privacidad de datos sanitarios. Dado que su trabajo le obliga a utilizar y compartir estos datos, debe conocer las leyes y las formas en que se pueden disociar los datos para compartirlos.
Dado que la tabla de datos High_Blood_Level_Results contiene información sobre los niveles de plomo en sangre e información identificativa de los niños, incluidos sus nombres, direcciones y fechas de nacimiento, es información sanitaria protegida por la HIPAA y debe protegerse cuidadosamente de acuerdo con la Regla de privacidad de la HIPAA.
Este tipo de datos solo pueden compartirse con el personal autorizado para acceder a ellos. La autorización vendrá determinada por sus directrices organizativas internas y, por lo general, abarca a aquellas personas cuyas responsabilidades laborales requieran el acceso a la información sanitaria protegida o a aquellas a las que se les permite acceder a ella a través de procesos internos como un comité de revisión institucional (CRI) para actividades de investigación y evaluación.
Quizá se pregunte si estas normas le obligan a usted.
- Lea la sección ¿Representa a una entidad cubierta? de la página de los Centros de Servicios de Medicare y Medicaid (CMS).
Dicha página ofrece orientación sobre quién está sujeto a la normativa HIPAA. La Herramienta de decisión para entidades cubiertas (PDF) ofrece un árbol de decisión interactivo que puede utilizar para determinar si usted representa a una entidad cubierta que debe seguir las normas de la HIPAA.
En general, entre las entidades cubiertas están las siguientes:
- Planes de salud: aquellos que prestan la atención médica o corren con los gastos.
- Proveedores de servicios sanitarios: aquellos que transmiten datos electrónicamente para cualquier fin (facturación, derivaciones, etc.).
- Centros de intercambio de información sanitaria: organizaciones que tratan información sanitaria no normalizada para ajustarla a las normas de contenido o formato de datos, o viceversa, en nombre de otras organizaciones.
- Colaboradores de negocio: personas u organizaciones ajenas a la entidad cubierta que realiza determinadas funciones en nombre de la entidad cubierta que suponen el uso o la revelación de información sanitaria personalmente identificable. En estas situaciones, la entidad cubierta debe tener un contrato con el asociado comercial que le imponga los mismos deberes y obligaciones de protección de la intimidad que a la entidad cubierta.
A efectos de este tutorial, consideraremos que usted representa a una entidad cubierta porque el supuesto se basa en que su organización gestiona clínicas de atención sanitaria.
Los datos sanitarios, como esta capa de niveles de plomo en sangre, son extremadamente valiosos para la identificación de las disparidades sanitarias, la evaluación de políticas y la planificación estratégica. Debe utilizar métodos que protejan la privacidad individual y, al mismo tiempo, maximicen la utilidad de los datos para estas medidas clave.
- Lea la sección De-identification Standard (Norma de disociación) de la página HHS.gov.
Puede utilizar los datos de SIG con la información sanitaria protegida, pero debe conservarlos en equipos informáticos locales debidamente protegidos o en una geodatabase protegida de ArcGIS Enterprise. Estos datos no pueden se alojar en ArcGIS Online.
Si comparte los datos, primero debe disociarlos.
El objetivo de la disociación de datos es separar la información identificable de la información sanitaria para garantizar un riesgo muy bajo de reidentificación.
El proceso de disociación consiste en eliminar los identificadores del conjunto de datos de forma que se minimicen significativamente las posibilidades de que alguien pueda averiguar la identidad de cualquiera de los individuos de ese conjunto de datos. Los reguladores saben que, incluso con métodos de disociación adecuados, siempre existe un riesgo de identificación superior a cero. Por lo tanto, los requisitos para la disociación consisten en garantizar un riesgo muy bajo de reidentificación de los individuos. Los dos métodos aceptados para la disociación en virtud de la norma HIPAA se muestran a continuación.
El primer método de disociación, Safe Harbor, le exige que elimine de los datos los 18 identificadores específicos siguientes:
- Nombres
- Todas las subdivisiones geográficas menores que un estado
- Todos los elementos de las fechas (excepto el año) que estén directamente relacionados con un individuo
- Números de teléfonos
- Identificadores de vehículos y números de serie
- Números de fax
- Identificadores y números de serie de dispositivos
- Direcciones de correo electrónico
- Localizadores universales de recursos web (URL)
- Números de seguridad social
- Direcciones de protocolo de Internet (IP)
- Números de historias clínicas
- Identificadores biométricos, incluidas las huellas dactilares y de voz
- Números de beneficiarios de planes de salud
- Fotografías de cara completa y cualquier imagen comparable
- Números de cuentas
- Números de certificados/licencias
- Cualquier otro número, característica o código de identificación únicos, excepto los permitidos
Para cumplir esta norma, sería necesario eliminar gran parte de los datos de la capa High_Blood_Level_Results.
Este método no resulta muy útil si utiliza el SIG para la salud, pero aun así merece la pena conocerlo. Es más sencillo que el segundo método, pero requiere un poco más de reflexión aparte de eliminar los 18 identificadores. El administrador de datos también debe considerar si hay otros identificadores en el dataset que una persona razonable podría utilizar para identificar a un individuo, como un título de puesto de trabajo único.
También puede haber observado un problema con el segundo identificador, todas las subdivisiones geográficas menores que un estado. Le dificultaría enormemente el uso del SIG con una resolución útil, por ejemplo, una ciudad o un vecindario.
Iría desde estos puntos:
Hasta los datos del nivel estatal, como en el siguiente mapa:
Las normas Safe Harborde le permiten utilizar los tres dígitos iniciales de un código postal si, según los datos actuales del censo de los EE. UU., el código postal de tres dígitos representa a más de 20.000 habitantes. Sin embargo, pocas personas de los SIG sanitarios utilizan códigos postales de tres dígitos, y los usuarios de los SIG sanitarios se preocupan con frecuencia por los impactos sanitarios en los niveles geográficos más detallados.
Para sacar el máximo partido de sus datos, debe utilizar el segundo método de disociación, conocido como método Determinación experta.
- Consulte las indicaciones sobre la desociación de la Determinación experta.
El método de determinación experta es muy flexible. Requiere que un usuario con los conocimientos y la experiencia adecuados aplique principios y métodos científicos y estadísticos generalmente aceptados, de forma que los datos queden disociados con un riesgo muy bajo de reidentificación. Un aspecto clave del método de determinación experta es que las técnicas utilizadas para realizar la determinación experta estén documentadas.
Ha consultado los datos del nivel de plomo en sangre. También ha investigado la definición de información sanitaria protegida, las entidades que deben cumplir la ley HIPAA y dos métodos de disociación, Safe Harbor y determinación experta. Cuando trabaje con información sanitaria protegida en su trabajo relacionado con el SIG, es importante que tome las medidas apropiadas para cumplir la ley y evitar violaciones de la privacidad.
Debe determinar el mejor método para proporcionar el nivel adecuado de datos a los distintos miembros de su equipo, en función de sus roles y tareas. Proporcionará datos identificables en el nivel de puntos a determinados usuarios internos. Estos usuarios autorizados pueden llevar a cabo la administración de los casos y la investigación en busca de posibles fuentes de exposición. Quizá necesiten las direcciones de los domicilios para calcular rutas optimizadas para las visitas a domicilio. Otras personas, sin embargo, necesitarán un dataset mínimo viable desidentificado.
En las secciones que aparecen a continuación, empleará el método de determinación experta utilizando varias técnicas de SIG para crear productos de datos que apoyen los esfuerzos de prevención de la envenenamiento infantil por plomo de su organización.
Diseñar visualizaciones basadas en mapas
En esta sección, simbolizará los datos del nivel de plomo en sangre en mapas utilizando métodos que conserven la integridad de los datos y los patrones espaciales, sin dejar de proteger la privacidad de los individuos dentro del dataset.
Los distintos métodos son útiles para diferentes casos de uso. Debe pensar en la intención, la audiencia y el mecanismo de entrega del mapa. Si el mapa va a ser estático, como un PDF, una imagen o un mapa en papel, y el usuario del mapa no puede interactuar con los datos, se aplican consideraciones diferentes a las que se aplican si el usuario del mapa puede explorar los datos en un navegador web o en una aplicación en la que puede acercar y alejar la imagen para investigar potencialmente puntos individuales y sus datos de atributos asociados.
Crear un mapa de calor
Tiene que hacer un mapa para un póster impreso para informar a las partes interesadas y al público sobre el alcance de la intoxicación infantil por plomo en Sacramento para ayudar a comunicar el riesgo y orientar la intervención, la educación en materia de salud y las actividades relacionadas. Un mapa de calor es una buena opción para ello, ya que crea una superficie suavizada que indica la densidad de puntos de su capa, al tiempo que difumina las ubicaciones de los puntos.
- En el panel Contenido, haga clic con el botón derecho en High_Blood_Level_Results y haga clic en Simbología.
- En el panel Simbología, haga clic en la lista desplegable Simbología principal, desplácese hacia abajo y haga clic en Mapa de calor.
La simbología de la capa cambia para mostrar los datos como un mapa de calor.
La mancha amarilla y roja de alta intensidad de la sección noreste de la ciudad representa un área en la que viven varios niños con altos niveles de plomo en sangre. Un hecho importante es que no puede ver cuántos niños se muestran ni la ubicación exacta de sus hogares. Para proteger aún más la privacidad de los pacientes, puede mostrar este mapa de calor sin incluir otros límites administrativos, como las líneas de condado o los códigos postales, y también puede sustituir el mapa base por uno que no muestre los nombres de las calles, lo que proporciona una mayor protección contra la reidentificación de los datos sensibles. Esta técnica de visualización funciona mejor con los datasets que tienen muchas entidades de punto y en los que al menos algunas de ellas están muy próximas a otras.
Nota:
Las áreas visualmente más intensas de un mapa de calor se conocen a veces como puntos calientes. Aunque esta es una forma razonable de describir estos patrones espaciales, no debe confundir este tipo de puntos calientes con los resultados de la herramienta Análisis de puntos calientes, que identifica agrupaciones estadísticamente significativas en toda un área de estudio. - En la cinta, haga clic en la pestaña Compartir y, en la sección Salida, haga clic en Capturar al Portapapeles.
Se copia una imagen estática del mapa de calor al Portapapeles. Puede pegarlo a una presentación o un documento y compartirlo sin exponer la información de salud protegida.
- Acérquese al área intensa de la parte noreste de la ciudad.
A medida que se acerca, la simbología del mapa de calor cambia para mostrar la densidad relativa de los puntos en la pantalla.
Cuanto más se acerca, más detalles se pueden ver. Incluso si los datos están borrosos en relación con la representación del punto original, a algunas escalas, un mapa de calor ya no es una forma apropiada de mostrar datos sensibles sin dejar de proteger la privacidad.
Nota:
Es importante ser consciente de que si su intención era crear un mapa interactivo en lugar de un mapa impreso, esta representación dinámica del mapa de calor podría exponer información personal. Al crear mapas interactivos, tenga cuidado con los mapas de calor renderizados dinámicamente y plantéese limitar la cantidad de zoom posible utilizando la renderización dependiente de la escala.En algunas escalas de zoom, puede determinar ubicaciones en el nivel de los domicilios individuales para los puntos borrosos.
- Haga clic en uno de los puntos borrosos.
La ventana emergente muestra los atributos del punto. El uso de la simbología del mapa de calor no protege los datos de los pacientes si el mapa es interactivo. Los puntos y sus atributos siguen presentes.
- En el panel Simbología, en la casilla Radio, escriba 50.
La simbología del mapa de calor cambia y se recalcula la densidad utilizando un valor de radio mayor.
Esta nueva representación podría plasmarse para mostrar la densidad de casos de niveles elevados de plomo en sangre a escala de vecindario.
Resulta útil explorar otros parámetros de simbología de mapas de calor para representar el grado y la escala de agrupación de sus datos, equilibrandoasí la necesidad de representar los datos con precisión geográfica y la obligación de proteger la intimidad de los sujetos. Muchas cuestiones relacionadas con la salud, incluidos los brotes de enfermedades, operan a escalas geográficas diferentes. En algunos casos, existe un origen puntual que provoca un brote, mientras que en otras ocasiones el problema emana de una transmisión a nivel comunitario. Comprender y utilizar los datos a la escala apropiada es clave para el éxito de cualquier análisis de SIG en materia de salud.
La imagen del mapa estático de su ciudad puede agregarse a los informes que informan a las partes interesadas y al público sobre el alcance de la intoxicación infantil por plomo en la comunidad. Los mapas de calor resultan útiles a la hora de mostrar cómo se distribuyen los datos y dónde están especialmente concentrados. Puede obtener más información sobre la simbología de los mapas de calor en la ayuda.
- Haga clic en Guardar proyecto para guardar su proyecto.
Crear un mapa de clústeres de puntos
Tiene que crear un mapa de planificación estática para la dirección del hospital que comunique claramente dónde se detectan concentraciones grandes y pequeñas de casos de intoxicación por plomo. Naturalmente, debe hacerlo sin dejar de proteger la privacidad de las personas. En este caso, los responsables están procupados por el número real de casos de su área de servicio, ya que necesitan asegurarse de que asignan especialistas y coordinan los recursos del programa de atención.
Para ello, creará un mapa de clústeres. La técnica de agrupación de entidades funciona agrupando los clústeres de puntos dentro de un área y mostrando un símbolo graduado que indica el número de puntos agrupados que representa ese clúster. Esta opción es recomendable cuando se desee mostrar cifras exactas a diferentes escalas y no se necesita o no se desea compartir las ubicaciones de los puntos individuales.
- En el panel Contenido, haga clic en la capa High_Blood_Level_Results.
- En la cinta, haga clic en la pestaña Capa de entidades y, en la sección Dibujo, haga clic en Agregación y en Clustering.
- Haga clic en Sí en el mensaje que confirma que se cambiará la simbología.
La simbología de la capa cambia al estilo Clústeres. El color de los símbolos se asigna aleatoriamente, y el tamaño y el número de clústeres dependen de su pantalla y de la extensión del mapa.
Los clústeres de puntos se escalan en relación con el número de puntos del clúster y se etiquetan también con el número de puntos.
- Acérquese al clúster al noreste de la ciudad.
Al igual que la simbología del mapa de calor, la simbología de clústeres se adapta al nivel de zoom y a la extensión del mapa.
Si se acerca lo suficiente, empezará a ver las ubicaciones individuales de los pacientes.
Al igual que ocurre con la simbología del mapa de calor, en algunas extensiones y niveles de zoom, la simbología de clústeres no es apropiada para proteger la identidad de los pacientes. Además, al igual que con la simbología del mapa de calor, cuando se acerca lo suficiente una versión interactiva del mapa, es posible hacer clic en puntos individuales y obtener sus atributos. La simbología de clústeres no es suficiente para proteger la identidad de los pacientes en un mapa interactivo.
En el caso de los mapas estáticos, puede ajustar la agrupación en clústeres más apropiada a la escala y extensión deseadas.
- En el panel Contenido, en High_Blood_Level_Results, haga clic con el botón derecho en Clústeres y haga clic en Simbología.
- En el panel Simbología, en la pestaña Clústeres, haga clic en Configuración de clúster.
- Haga clic en el control deslizante Radio de clúster y arrástrelo hacia el extremo Alto de la escala.
A medida que arrastra el control deslizante Radio de clúster hacia el extremo Alto de la escala, el número de clústeres disminuye y el número de puntos por clúster aumenta.
Resulta similar al funcionamiento del radio del mapa de calor. Puede cambiar el radio del clúster para ajustar el grado de clustering a la extensión y escala de su mapa.
- En el panel Contenido, haga clic con el botón derecho en Entidades y haga clic en Acercar a capa.
Al igual que con la simbología del mapa de calor, un radio que funciona bien para una escala y extensión podría no ser apropiado en otra.
- En el panel Simbología, haga clic en el control deslizante Radio de clúster y arrástrelo hacia el extremo Bajo de la escala.
Los mapas de clústeres se utilizan en los mapas estáticos y dinámicos para mostrar números específicos de apariciones (observaciones de casos en este caso) y para indicar patrones espaciales en la densidad de los datos. A los efectos de la privacidad, la ventaja es que los clústeres no están vinculados a límites administrativos como códigos postales o condados que puedan utilizarse para identificar a las personas. Debe ajustar el radio del clúster a la escala y extensión específicas del mapa para transmitir información útil sobre los patrones sin revelar las ubicaciones individuales de los pacientes.
Dado que está creando una imagen de mapa estática para la dirección del hospital, puede utilizar un mapa de clústeres, siempre con cuidado de establecer el radio de clúster apropiado para el mapa.
Para sus compañeros de la dirección de los hospitales, su mapa de clústeres estático les proporciona exactamente la información que necesitan para planificar un planteamiento coordinado del tratamiento de los niños de la localidad con altos niveles de plomo en sangre.
Encontrará más información acerca de la agregación de entidades en clústeres en la ayuda.
- Haga clic en Guardar proyecto para guardar su proyecto.
Ha utilizado dos técnicas de visualización —los mapas de calor y la agrupación de entidades en clústeres— para visualizar datos de puntos sin mostrar las ubicaciones exactas de los individuos.
Suprimir las celdas pequeñas
Las celdas pequeñas son polígonos que contienen datos agregados en los que el número de puntos de datos del polígono es lo suficientemente reducido como para hacer posible la reidentificación de los individuos. En esta sección, combinará dos métodos para apoyar la disociación de sus datos cuando tenga celdas pequeñas: el análisis de puntos calientes y la teselación. El análisis de puntos calientes se basa en cálculos matemáticos que identifican clústeres espaciales estadísticamente significativos de valores altos (puntos calientes) y valores bajos (puntos fríos). La teselación es un método para crear un mosaico de una superficie con formas geométricas idénticas que no se superponen, como cuadrados, triángulos o hexágonos. Estas teselas pueden utilizarse para mostrar información resumida sobre los puntos de datos que recaen dentro de ellas.
Identificar los puntos calientes y fríos estadísticos
Su siguiente tarea es hacer un mapa que muestre clústeres estadísticamente significativos de casos de niveles elevados de plomo en sangre para un informe que se publicará en línea en un mapa web dinámico. Utilizará la herramienta Análisis de puntos calientes optimizado para crear su mapa y simbolizará los resultados con una teselación de hexágonos.
En ArcGIS Pro, la herramienta Análisis de puntos calientes optimizado le permite agregar las ubicaciones con niveles elevados de plomo en sangre en entidades ponderadas. Utilizando la distribución de las entidades ponderadas, la herramienta identificará una escala de análisis apropiada. Con ello, se elimina la necesidad de conocer de antemano el tamaño de los hexágonos. La agregación o agrupación en bins de los datos con hexágonos, también llamados hexbins, es una forma útil de visualizar la información sanitaria protegiendo al mismo tiempo la privacidad de los pacientes, ya que no se alinean directamente con los límites administrativos. Un segundo nivel de ofuscación se consigue al incorporar una salida analítica (niveles de significancia estadística) en lugar de números de casos.
Su mapa web mostrará los patrones generalizados de presencia y ausencia de intoxicación infantil por plomo en toda el área de estudio, a la vez que comunicará las áreas con mayores concentraciones.
- En la cinta, haga clic en la pestaña Análisis y haga clic en la pestaña Herramientas.
Se abre el panel Geoprocesamiento. Utilizará este panel para buscar y ejecutar la herramienta Análisis de puntos calientes optimizado.
- En el cuadro de búsqueda, escriba análisis de puntos calientes optimizado y, en la lista de resultados, haga clic en la herramienta Análisis de puntos calientes optimizado.
La herramienta se denomina Análisis de puntos calientes optimizado porque busca la mejor distancia a la que realizar el análisis de puntos calientes. Será la distancia a la que la agrupación entre los recuentos en hexágonos vecinos sea más intensa. Si no se consigue una distancia clara, el optimizador calcula una distancia media que proporciona un cierto número de vecinos más próximos para el análisis. Por último, la herramienta compara el recuento de pacientes que presentan niveles elevados de plomo en sangre en cada clúster de hexágonos del vecindario con la totalidad del área de estudio para determinar una puntuación z que puede relacionarse directamente con un valor p a partir del cual se determina la significación estadística.
- Para Entidades de entrada, elija High_Blood_Level_Results.
- En Entidades de salida, acepte la ubicación predeterminada, en la geodatabase BloodLeadLevels.gdb, y escriba High_Blood_Lead_Hot_Spots como nombre de la clase de entidad.
- Deje vacío Campo de análisis.
Si hay un valor numérico asociado a las entidades de entrada, puede utilizar el parámetro Campo de análisis para tener en cuenta esos valores en el análisis de puntos calientes. En este caso, no especificará ningún valor en Campo de análisis. De esta forma, evaluará la distribución de los puntos de High_Blood_Level_Results en cuanto a los puntos calientes y fríos.
- En Método de agregación de datos de incidentes, haga clic en la lista desplegable y elija Contar incidentes dentro de cuadrícula hexagonal.
- En Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, haga clic en la lista desplegable y haga clic en Sacramento_ZIP_Codes.
Esta capa contiene polígonos de códigos postales de Sacramento. La herramienta utiliza estas entidades para identificar los lugares donde pueden producirse puntos. En esencia, está especificando su área de estudio para la herramienta, por lo que las zonas que se encuentren fuera de su área de estudio de Sacramento, pero aún dentro del rectángulo de delimitación máxima de los puntos de entrada, no se identificarán como puntos fríos.
- Haga clic en Ejecutar.
La herramienta se ejecuta y la capa High_Blood_Lead_Hot_Spots se agrega al mapa.
- En el panel Contenido, desmarque la capa High_Blood_Level_Results para poder examinar la nueva capa.
Las clases de símbolos de la capa se muestran en el panel Contenido.
Los resultados de la herramienta se simbolizan utilizando azules para los puntos fríos estadísticos, rojos para los puntos calientes estadísticos y blancos para los niveles no significativos. Encontrará más información sobre el Análisis de puntos calientes optimizado en la documentación.
Puede compartir esta capa como una forma de mostrar la distribución de recuentos de casos significativamente altos y bajos. Sin embargo, antes de compartirla, debería eliminar el campo Counts, que utilizará en la siguiente sección. Este campo indica el número de casos de cada hexágono. Si proporcionara recuentos específicos, especialmente para las celdas con solo unos pocos incidentes, existiría el riesgo de no proteger adecuadamente la identidad de los pacientes, aunque ello depende en parte del tamaño de las celdas y de la frecuencia de aparición de la afección.
A continuación, simbolizará la capa de análisis de puntos calientes mediante el recuento total de cada bin. Este método no solo muestra las áreas de concentración, sino que también permite comunicar claramente el rango del número de casos.
- Haga clic en Guardar proyecto para guardar su proyecto.
Simbolizar hexbins por recuentos
Necesita crear un informe que se compartirá con los analistas internos que trabajan en un proyecto de mitigación del plomo y que necesitan conocer el número de casos de un área sin necesidad de conocer las ubicaciones concretas de los puntos. Cambiará la simbología de los puntos calientes para mostrar el recuento total de entidades de cada polígono.
Primero, hará una copia de la capa para tener una versión simbolizada de cada sentido.
- En el panel Contenido, haga clic con el botón derecho en la capa High_Blood_Lead_Hot_Spots y haga clic en Copiar.
- En el panel Contenido, haga clic con el botón derecho en Mapa y haga clic en Pegar.
- En el panel Contenido, haga clic en el nombre de la capa que ha pegado para poder editar el nombre.
- Escriba High_Blood_Lead_Hexbin_Counts como nombre de la capa.
- En el panel Contenido, desactive la capa High_Blood_Lead_Hot_Spots.
- Haga clic con el botón derecho en la capa High_Blood_Lead_Hexbin_Counts y haga clic en Simbología.
- En el panel Simbología, haga clic en Campo y luego en Counts.
- Haga clic en la lista desplegable Esquema de color, desplácese hacia abajo y haga clic en la rampa de color Rojos (7 clases).
- Haga clic en la lista desplegable Clases y pulse 5.
- Haga clic con el botón derecho en el parche de color de la clase más baja, menor o igual que un recuento de 0 y haga clic en Sin color.
La eliminación del relleno de los hexbins de recuento cero ofrece más contexto a los lectores del mapa y centra la atención en aquellas celdas en las que hay pacientes con altos niveles de plomo en sangre.
Tenga en cuenta que hay hexbins clasificados con 1 punto dentro de ellos. En la mayoría de los casos, no querrá mostrar un único caso dentro de un único hexbin. Se trata claramente de una celda pequeña. Puede ajustar el histograma de los símbolos graduados para cambiar las clases de la simbología del mapa.
- En el panel Simbología, haga clic en la pestaña Histograma.
- Haga clic y arrastre el marcador de ruptura de clase de 1 a 2.
- Haga clic y arrastre el marcador de ruptura de clase de 3 a 4.
Las nuevas rupturas de clase están definidas.
La simbología se actualiza para agrupar los hexbins con una y dos cajas en el mismo grupo.
El número correcto a elegir para el número mínimo de casos en un hexbin varía dependiendo del escenario y de las normas de su organización. Para las afecciones más comunes, puede utilizar un número más pequeño; para las afecciones raras, puede ser mejor utilizar un número más grande. También es importante tener en cuenta el área de cada una y el número de personas (y casos potenciales) que se encontrarían dentro de uno. Cuanto mayor sea el bin y mayor sea el número de personas, más bajo podrá situar el número mínimo de casos sin correr el riesgo de reidentificación de los individuos.
Ahora ya puede compartir esta información con los compañeros que realicen el análisis. Aunque sean internos de su organización y quizá tengan todos los permisos necesarios para utilizar los datos sin procesar, en realidad no necesitan datos a nivel de puntos para su trabajo. Es una práctica recomendada proporcionar un dataset mínimo viable acorde con las necesidades del trabajo. Se trata de un planteamiento equilibrado que ofrece datos lo suficientemente precisos como para centrarse en las preocupaciones locales (mejor que en el nivel de código postal), al tiempo que evita el riesgo de compartir datos puntuales que contengan información sanitaria protegida donde esta no se requiere.
- Haga clic en Guardar proyecto para guardar su proyecto.
Ha utilizado la herramienta Análisis de puntos calientes optimizado para ayudar a determinar el tamaño apropiado de los hexbins (partiendo de la mejor escala de análisis, no de las necesidades de privacidad) para las entidades de punto de entrada; también ha simbolizado los hexbins para mostrar la significancia estadística. Al usar el mapa de puntos calientes para resaltar las áreas de relativa preocupación, se comunica el problema a la vez que se impide la identificación de los individuos. También ha resimbolizado los datos de los hexbins para mostrar los recuentos reales de casos de un proceso analítico diferente. Ha utilizado un método que no obliga a compartir los puntos individuales con partes interesadas que podrían no estar autorizadas a verlos o que en realidad no los necesitan para su trabajo. El resultado proporcionó una representación visual clara de las áreas con mayores incidencias de niveles elevados de plomo en sangre en toda su área de estudio.
Generalizar y agregar datos
En esta sección, consultará los datos por años y aprenderá a proteger a las personas y a no identificar los clústeres de datos pequeños en los productos cartográficos que se harán públicos. Aprenderá a generalizar y agregar datos para proteger la información sensible utilizando métodos que, no obstante, le permitan mostrar los patrones relevantes de los datos. Si hablamos de datos de salud, a menudo son los patrones los que resultan más informativos; la ubicación individual de los casos no siempre es necesaria para informar sobre muchos aspectos de las operaciones. Por ejemplo, como analista es posible que desee utilizar datos generalizados o agregados en los informes anuales sobre la intoxicación infantil por plomo y la vigilancia, en contraposición a los puntos individuales utilizados en la administración de casos y las investigaciones.
La generalización de los datos supone su simplificación para reducir la complejidad o el nivel de detalle. Por ejemplo, puede generalizar los datos de la fecha de nacimiento al año de nacimiento. Puede generalizar la edad a cohortes de edad en agrupaciones de 10 años. También puede combinar varios grupos tribales, como cherokee, navajo y choctaw en una categoría conjunta de nativos americanos. La agregación, por otro lado, implica la combinación de varios puntos de datos en una única estadística de resumen, como el número de nacimientos por año. En los pasos que aparecen a continuación, se centrará en los métodos de agregación, pero muchas veces es posible recurrir a técnicas de generalización a los datos subyacentes para disimular aún más la información privada.
Resumir los datos por código postal y año
Comenzará resumiendo los datos por años utilizando la capa del código postal del área de estudio. Los límites de los códigos postales se utilizan con frecuencia para elaborar informes de estadísticas sanitarias. Su uso tiene pros y contras. En el lado positivo, los códigos postales son más pequeños que los condados y la mayoría de la gente conoce su código postal y puede localizarlo en un mapa. En el lado negativo, los límites de los códigos postales son constructos artificiales diseñados para apoyar el reparto eficiente del correo y pueden cambiar con el tiempo. Usted, como analista, debe decidir si son apropiados para sus necesidades y se ajustan a las normas de publicación de datos de su organización.
- En el panel Geoprocesamiento, haga clic en el botón Atrás.
- En el cuadro de búsqueda, escriba resumir dentro de y, en la lista de resultados, haga clic en la herramienta Resumir dentro de (Herramientas de análisis).
Existe otra herramienta Resumir dentro de que pertenece al conjunto de herramientas Herramientas de GeoAnalytics Desktop, pero a los efectos de este tutorial deberá utilizar la del conjunto de herramientas Herramientas de análisis.
- En el cuadro de diálogo de la herramienta Resumir dentro de, en Entidades de entrada, elija la capa Sacramento_Zip_Codes.
- En Entidades de entrada, elija la capa High_Blood_Level_Results.
- En Clase de entidad de salida, acepte la ubicación predeterminada, en la geodatabase BloodLeadLevels.gdb, y escriba HBLL_by_zip_year como nombre de la clase de entidad.
- En Campo de grupo, elija la opción Blood Level Test Year.
- Haga clic en Ejecutar.
Se agrega la capa HBLL_by_zip_year al mapa. En la sección Tablas independientes, también se agrega la tabla testYear_Summary. Esta tabla contiene los datos resumidos con los recuentos por código postal y año. Esta información se puede volver a unir a la capa HBLL_by_zip_year para mostrar los valores de cada año.
A continuación, unirá los datos y aprenderá a generalizar varios años de datos o a agregar códigos postales adyacentes para respetar los umbrales de valor mínimo de su organización relativos a la protección de datos.
Unir la tabla de entidades a la clase de entidad resultante
Ahora unirá la tabla de entidades a la clase de entidad resultante, por lo que obtendrá una única clase de entidad con datos resumidos por código postal y año. Le permitirá crear capas para mostrar los datos de cada año.
- En el panel Contenido, haga clic con el botón derecho en la capa HBLL_by_zip_year y haga clic en Tabla de atributos.
La tabla muestra los datos de los polígonos de códigos postales originales y los datos que se agregaron con la herramienta Resumir dentro de. El campo Count of Points muestra el número total de casos de cada polígono de código postal. El campo JOIN ID contiene valores que puede utilizar para unir los atributos de la tabla testYear_Summary a esta capa. Esta clase de entidad contiene 17 polígonos de código postal.
- En el panel Contenido, en la sección Tablas independientes, haga clic con el botón derecho en la tabla testYear_Summary y haga clic en Abrir.
El campo JOIN ID contiene valores que puede utilizar para unir los atributos a la capa HBLL_by_zip_year. El campo testYear contiene los valores de los años de los análisis de sangre. El campo Count of Points muestra el número total de casos en cada polígono de código postal en cada año para un total de 50 registros de la tabla.
- En el panel Contenido, haga clic con el botón derecho en HBLL_by_zip_yea, apunte a Uniones y relaciones y haga clic en Agregar unión.
- En el cuadro de diálogo de la herramienta Agregar unión, el parámetro Tabla de entrada debería tener de forma predeterminada la capa HBLL_by_zip_year en la que ha hecho clic con el botón derecho.
- En Campo de unión de entrada, elija JOIN ID.
Se muestra un icono de advertencia junto a Campo de unión de entrada que indica que el campo no está indexado. En las tablas pequeñas como esta, no supone un problema.
- En Tabla de unión, elija testYear_Summary.
- En Campo de tabla de unión, elija Join ID.
- Haga clic en Validar unión.
El proceso Validar unión se ejecuta y devuelve un mensaje.
Dado que dos campos no están indexados, la herramienta recomienda crear índices para así mejorar el rendimiento. Dado el número de entidades implicadas, no es necesario hacerlo.
La herramienta también indica que se trata de una unión de uno a muchos y que la clase de entidad unida resultante tendrá 50 registros (uno por cada registro de la tabla testYear_Summary).
- Haga clic en Cerrar para cerrar la ventana Mensaje.
- En el cuadro de diálogo de la herramienta Agregar unión, haga clic en Aceptar.
La tabla de atributos de la capa HBLL_by_zip_year se actualiza para mostrar los campos adicionales de testYear_Summary y los registros adicionales de las combinaciones de polígonos de códigos postales y años de los análisis.
Los resultados de la herramienta Agregar unión son temporales. Creará una copia de la clase de entidad con todas las características exportándola a una nueva clase de entidad.
- Haga clic con el botón derecho en la capa HBLL_by_zip_year, apunte a Datos y haga clic en Exportar entidades.
- Cambie el nombre de Clase de entidad de salida a HBLL_by_zip_all_years.
- Haga clic en Aceptar.
La nueva clase de entidad se almacena en la geodatabase de su proyecto.
Simbolizar la capa combinada
Ahora vamos a simbolizar la capa.
- En el panel Contenido, desactive todas las capas, excepto HBLL_by_zip_all_years.
- En el panel Contenido, haga clic con el botón derecho del ratón en la capa HBLL_by_zip_all_years y haga clic en Simbología.
- En el panel Simbología, haga clic en las listas desplegables Simbología principal y haga clic en Colores graduados.
- Haga clic en la lista desplegable Campo y en el segundo de los dos campos Recuento de puntos, debajo de Join ID.
Este campo contiene el recuento agregado de puntos contenidos en el polígono y que tuvieron lugar en un año específico. El primer campo contiene el recuento total de los tres años.
- En Esquema de color, haga clic en Morado (5 clases).
La simbología de la capa se actualiza. Es posible que observe queno todas las clases de símbolos de la capa mostrada en el panel Contenido aparecen representadas en el mapa.
En este ejemplo, parece que falta la clase más alta. Se debe a que la capa HBLL_by_zip_all_years contiene varias copias de cada polígono del código postal, una por cada año en el que se registraron casos en ese código postal. La simbología de la capa tiene en cuenta el rango completo de valores de la tabla de atributos, pero el color de la simbología solo se muestra para el más alto de los polígonos.
- En la cinta, en la pestaña Mapa, en la sección Navegar, haga clic en la lista desplegable de la herramienta Explorar y haga clic en Capas visibles.
- Haga clic en el polígono del código postal situado más al noreste.
El panel Elementos emergentes muestra que tres entidades de la capa HBLL_by_zip_all_years se encontraban en la ubicación en la que hizo clic. Los atributos de la superior aparecen en la parte inferior de la ventana emergente. Puede ver que el primero de este ejemplo corresponde al año 2018; en ese año, se registraron 24 casos en el código postal 95821.
Puede hacer clic en las entidades, enumeradas en este caso por su nombre con la palabra Sacramento, en la parte superior del panel Elementos emergentes para ver los atributos de las otras dos.
La segunda de las entidades corresponde a 2019, año en el que se registraron 48 casos en el código postal 95821.
Visualizar los datos en capas separadas por años
Ahora que tiene la capa HBLL_by_zip_all_years con los recuentos de códigos postales por años, hará copias de la capa para poder visualizar la distribución de los casos de niveles altos de plomo en sangre de cada año.
- En el panel Contenido, haga clic con el botón derecho del ratón en la capa HBLL_by_zip_all_years y haga clic en Copiar.
- En el panel Contenido, haga clic con el botón derecho en Mapa y haga clic en Pegar.
- Haga clic en el nombre en la copia de la capa HBLL_by_zip_all_years y escriba HBLL_by_zip_2018 para cambiarle el nombre.
- Haga doble clic en la capa HBLL_by_zip_2018 y, en el panel Propiedades de capa, haga clic en Consulta de definición.
- Haga clic en Nueva consulta de definición.
- En la sección Consultas de definición, en la línea Dónde, haga clic en la lista desplegable y haga clic en el campo testYear. Acepte el operador predeterminado, es igual a, y haga clic en la tercera lista desplegable y elija 2018.
Con estos parámetros, se construye una cláusula Dónde de consulta de definición que filtra la capa para que solo se muestren en el mapa los polígonos de 2018.
- Haga clic en Aceptar.
- En el panel Contenido, haga clic con el botón derecho en la capa HBLL_by_zip_2018 y haga clic en Copiar.
- En el panel Contenido, haga clic con el botón derecho en Mapa y haga clic en Pegar.
- Cambie el nombre de la nueva copia de la capa HBLL_by_zip_2019.
- Abra la pestaña Consulta de definición de la capa HBLL_by_zip_2019.
- Haga clic en Editar.
Cambiará la consulta de definición de la capa de 2019 para mostrar los datos de 2019.
- Cambie el valor del año a 2019 y haga clic en Aplicar.
- Haga clic en Aceptar.
- Haga una copia de la capa HBLL_by_zip_2019, cámbiele el nombre a HBLL_by_zip_2020 y utilice el proceso que acaba de aprender para actualizar la consulta de definición de esa capa para que muestre los datos de 2020.
A continuación, explorará dos métodos de agregación distintos para alcanzar el valor de umbral mínimo de su organización. La dirección de su organización ha determinado que, si se producen 5 o más observaciones en un área, por ejemplo, un código postal, puede mostrar los datos de ese código postal en un producto que se dará a conocer públicamente.
- Haga clic en la herramienta Explorar y en el polígono central del código postal con un recuento bajo de casos.
La capa superior del panel Contenido, HBLL_by_zip_2020, se muestra en primer lugar.
En 2020, solo se registraron dos casos en este polígono de códigos postales. Este valor es inferior al valor mínimo de cinco casos que su organización ha especificado para la publicación de datos por códigos postales.
- En el panel emergente, haga clic en la entrada de Sacramento para la capa HBLL_by_zip_2019.
En este código postal, se registraron tres casos en 2019. Una opción es publicar los datos combinados de este código postal para 2019 y 2020, ya que la suma de los valores de estos dos años es de cinco.
Combine los datos de varios años
Un método que le permitiría respetar el valor de umbral mínimo de su organización sería agregar varios años de datos hasta obtener un mínimo de 5 casos en cada código postal. Este planteamiento reduce la resolución temporal para respetar la resolución espacial.
- En la cinta, en la pestaña Mapa, en el grupo Selección, haga clic en Seleccionar por atributos.
- En el panel Seleccionar por atributos, en Filas de entrada, haga clic en la lista desplegable y haga clic en High_Blood_Level_Results.
- Haga clic en Agregar cláusula.
- En la sección Donde, haga clic en la lista desplegable Seleccionar un campo y haga clic en Blood Level Test Year.
- Acepte el operador predeterminado, es igual a.
- Haga clic en la lista desplegable del valor de comparación y haga clic en 2020.
- Haga clic en Agregar cláusula.
- Elija el operador lógico O para unir las cláusulas.
- Haga clic en el operador lógico Y y, en la lista desplegable, haga clic en O.
- Seleccione el campo Blood Level Test Year y acepte el operador predeterminado es igual a.
- Haga clic en las listas desplegables de valores y haga clic en 2019.
La herramienta Seleccionar por atributos está preparada para seleccionar entidades con valores de 2020 o 2019 en el campo Blood Level Test Year.
- Haga clic en Aceptar.
Se seleccionan las entidades de High_Blood_Level_Results registradas para los años 2020 o 2019. Ahora puede ejecutar con ellos la herramienta Resumir dentro de para obtener los recuentos por código postal de las entidades seleccionadas.
- En la cinta, en la pestaña Análisis, en la sección Geoprocesamiento, haga clic en Herramientas.
- Busque y abra la herramienta Resumir dentro de.
La herramienta debe aparecer en la lista Recientes del panel Geoprocesamiento.
- En Polígonos de entrada, elija Sacramento_Zip_Codes.
- En Entidades de resumen de entrada, elija la capa High_Blood_Level_Results.
- Asigne al parámetro Clase de entidad de salida el nombre HBLL_by_zip_2019_2020.
La herramienta Resumir dentro de le advierte de que hay una selección en la entrada y solo se procesará ese subconjunto de registros. Es lo que necesitamos.
- Deje en blanco Campos de resumen y Campo de grupo.
- Haga clic en Ejecutar.
La nueva capa HBLL_by_zip_2019_2020 se agrega al panel Contenido.
- En el panel Contenido, haga clic con el botón derecho en la capa HBLL_by_zip_2019_2020 y haga clic en Tabla de atributos.
- Haga clic con el botón derecho en el encabezado de la columna Count of Points y haga clic en Orden ascendente.
La columna ordenada muestra que no hay ningún polígono de código postal de esta capa que tengan menos de cinco casos.
Acorde con el valor de umbral mínimo de su organización, los recuentos agrupados para 2019 y 2020 pueden publicarse en el nivel de código postal.
Fusionar geometrías de códigos postales
Supongamos que necesita informar de los datos de 2020, pero sin incluir los de 2019. Utilizará un segundo método para respetar el umbral mínimo de su organización, concretamente agregando los códigos postales de un mismo año hasta que existan más de cinco casos en cada área agregada. Este planteamiento disminuye la resolución espacial para mantener la resolución temporal.
- Abra el panel Geoprocesamiento.
- En el cuadro Buscar, escriba crer zonas equilibradas y, en los resultados, haga clic en Crear zonas equilibradas.
- En Entidades de entrada, elija la capa HBLL_by_zip_2020.
La herramienta muestra una nota que indica que la entrada tiene un filtro. Se debe a que existe una consulta de definición sobre la capa y la consulta la está filtrando para que solo muestre los datos de 2020.
- En Entidades de salida, escriba HBLL_2020_Zones.
- En Método de creación de zonas, acepte el valor predeterminado, Objetivo de atributo.
- En la sección Criterios de creación de zonas con objetivo, haga clic en Variable y haga clic en Count of Points [Point_Count_1].
- En el cuadro Suma, escriba 12.
Este valor es superior al valor mínimo de la organización, que es de 5. La herramienta Crear zonas equilibradas utiliza las variables de Objetivo como objetivos para un algoritmo genérico geneado aleatoriamente, pero los resultados solo se aproximarán a los valores objetivo; por tanto, si establece un valor inferior, es probable que algunas zonas contengan menos de cinco casos. Encontrará más información acerca de cómo crear zonas equilibradas en la documentación.
- En Restricciones especiales, elija Solo bordes de contigüidad.
La herramienta Crear zonas equilibradas está lista para ejecutarse.
Nota:
Si tuviera otros criterios para las zonas, por ejemplo, una población mínima, podría agregar otra variable y otro valor, pero, a los efectos de esta tarea, basta con crear zonas con un objetivo de al menos 12 casos. Puede obtener más información sobre la herramienta en la documentación. - Haga clic en Ejecutar.
Los resultados se agregan al mapa. Los polígonos originales de los códigos postales se conservan, pero tienen nuevos atributos que los asignan a otro tipo de zonas. Disolverá los polígonos en estos atributos de zona.
- Haga clic en el botón Atrás para volver al panel Geoprocesamiento, y busque y abra la herramienta Disolver por pares.
- En el cuadro de diálogo Disolver por pares, en Entidads de entrada, elija HBLL_2020_Zones.
- En Clase de entidad de salida, escriba HBLL_2020_Zip_Dissolve.
- En Campos a disolver, elija Zone ID.
- En Campos estadísticos, elija Count of Points y acepte el Tipo de estadístico predeterminado de Suma.
- Desactive Crear entidades multiparte.
- Ejecute la herramienta.
La capa de zonas disuelta se agrega al mapa.
- En el panel Contenido, haga clic con el botón derecho en HBLL_2020_Zip_Dissolve y haga clic en Tabla de atributos.
El recuento de puntos de las zonas es superior a 5, y la mayoría tienen 12 o más puntos. La información responde a las directrices de su organización.
Como analista del Programa de Prevención del Envenenamiento por Plomo en la Infancia, debe considerar qué método es el más apropiado para proporcionar datos significativos y procesables para las jurisdicciones que, en no pocas ocasiones, ven suprimidos sus datos. La agregación de los distintos años significa que su usuario final no puede discernir la variación temporal a lo largo de los años agregados, aunque sí puede ver las cifras de las zonas geográficas pequeñas que quedarían suprimidas de otro modo. La agregación de múltiples códigos postales puede hacer que se identifiquen fuertes tendencias temporales al representar cada año, pero la especificidad geográfica se verá disminuida. Cada método debe sopesarse teniendo en cuenta el público al que va dirigido y la finalidad de los informes y el intercambio de datos.
Agregar valores de coordenadas a los puntos
Hasta este momento, ha estado creando para sus partes interesadas distintos mapas que se centraban en cuestiones relacionadas con el impacto de los niveles elevados de plomo en sangre en el condado de Sacramento, cuántos casos se registraron en total y diversas formas de observar los patrones espaciales y temporales de los datos.
Ahora está trabajando con su equipo de equidad en salud. Quieren realizar un estudio para determinar si existen otros factores asociados a los niveles elevados de plomo en sangre en los niños, por ejemplo el sexo, la raza/etnia y la edad. Para ayudarles en esta labor, debe poder proporcionarles un dataset disociado a nivel de puntos que incluya todas las variables de interés de cada menor, así como su ubicación general. Utilizará el redondeo por coordenadas para realizar esta tarea y estudiará varias estadísticas para justificar los niveles de redondeo.
En primer lugar, agregará atributos con valores de latitud y longitud en grados decimales a sus entidades de punto.
- En el panel Geoprocesamiento, busque y abra la herramienta Calcular atributos de geometría.
- En Entidades de entrada, elija la capa High_Blood_Level_Results.
- En la primera fila de Atributos de geometría, en la casilla Campo (existente o nuevo), escriba Latitude.
Con ello, se agrega un nuevo campo a la tabla de atributos, una vez que se ejecute la herramienta, para almacenar los valores de latitud de cada punto.
- En el cuadro Propiedades del campo Latitude, haga clic en la lista desplegable y haga clic en Coordenada y de punto.
El valor de la coordenada y de cada punto se agregará al campo Latitude.
- En la segunda fila de Atributos de geometría, en la casilla Campo (existente o nuevo), escriba Longitude.
- En el cuadro Propiedades del campo Latitude, haga clic en la lista desplegable y haga clic en Coordenada x de punto.
- En el cuadro Formato de coordenadas, haga clic en la lista desplegable y pulse Grados decimales.
- Haga clic en Seleccionar sistema de coordenadas.
- En la ventana Sistema de coordenadas, escriba WGS 1984 en el cuadro de búsqueda.
- Expanda Sistema de coordenadas geográficas y expanda Mundo.
- Haga clic en WGS 1984 y haga clic en Aceptar.
- En la herramienta Calcular atributos de geometría, haga clic en Ejecutar.
- En el panel Contenido, haga clic con el botón derecho en la capa High_Blood_Level_Results, haga clic en Tabla de atributos y desplácese hacia la derecha en la tabla para ver los nuevos campos Latitude y Longitude.
Ahora que tiene los valores de latitud y longitud de los puntos almacenados en atributos, puede crear nuevos campos para albergar los valores redondeados y calcular los nuevos valores redondeados.
Nota:
Existen varias formas de manipular las coordenadas de latitud y longitud que representan las ubicaciones de punto de sus casos de niveles elevados de plomo en sangre. Puede truncar o redondear las coordenadas alineando la ubicación de cada punto a una cuadrícula de menor resolución a través del área de estudio. También puede perturbar las ubicaciones sustituyendo el último dígito o los dos últimos de cada coordenada por un número aleatorio. Al hacerlo, cada punto se desplaza en una distancia y una dirección aleatorias.
Agregar campos para contener los valores de las coordenadas redondeadas
Creará dos campos para contener los valores de las coordenadas redondeadas.
- Haga clic con el botón derecho en High_Blood_Level_Results, apunte a Diseño de datos y haga clic en Campos.
- Desplácese a la parte inferior de la lista de campos.
- Haga clic en el encabezado de la fila correspondiente a Latitude y pulse Ctrl mientras hace clic en el encabezado de la fila correspondiente a Longitude.
- Haga clic con el botón derecho del ratón en el encabezado de la fila correspondiente a Latitude y haga clic en Copiar.
- Haga clic con el botón derecho del ratón en el encabezado de la fila correspondiente a Latitude y haga clic en Pegar.
- Haga clic en la columna Nombre de campo para el campo Latitude1 y escriba LatitudeRound.
- Haga clic en la columna Nombre de campo para el campo Longitude y escriba LongitudeRound.
- Haga clic en la columna Alias para el campo LatitudeRound y escriba Latitud redondeada.
- Haga clic en la columna Alias para el campo LongitudeRound y escriba Longitud redondeada.
Los nombres y alias de campo para los campos copiados se han definido.
- En la cinta, en la pestaña Campos, en la sección Cambios, haga clic en Guardar.
Los dos nuevos campos se agregan al esquema de la tabla para la clase de entidad High_Blood_Level_Results.
- Cierre la vista Campos.
Redondear los valores de las coordenadas
A continuación, calculará los valores redondeados de las coordenadas y los almacenará en los nuevos campos.
- En la tabla de atributos de la capa High_Blood_Level_Results, haga clic con el botón derecho del ratón en Latitud redondeada y haga clic en Calcular campo.
- En el cuadro de diálogo de la herramienta Calcular campo, haga clic en la lista desplegable Tipo de expresión y haga clic en Arcade.
Arcade es un lenguaje de expresión sencillo escrito para ArcGIS.
- En el cuadro Expresión, introduzca la siguiente expresión de Arcade:
Round($feature.Latitude,2)
Este código utiliza la función Round de Arcade para establecer el valor del campo Latitud redondeada para que sea igual al valor del campo Latitude redondeado a dos decimales. Con ello, se redondea la información de ubicación de los puntos a la centésima de grado más cercana.
- Haga clic en el botón Verificar.
- Haga clic en Aplicar.
Los valores redondeados se calculan y se agregan a la tabla de atributos en el campo Latitud redondeada.
- Utilice el mismo método para calcular los valores del campo Longitud redondeada.
Sugerencia:
En la herramienta Calcular campo, defina el campo Nombre como Longitud redondeada y utilice la siguiente expresión de Arcade:Round($feature.Longitude,2)
Los campos Latitud redondeada y Longitud redondeada deben redondearse a dos decimales.
Nota:
Si sus coordenadas estaban en una referencia espacial plana, como California State Plane o UTM, los valores de las coordenadas estarán en unidades lineales en lugar de en grados decimales. En tal caso, tendrá que calcular un espaciado apropiado para sus puntos redondeados y redondear a ese espaciado. Por ejemplo, puede elegir redondear a los 1000 pies o 100 metros más cercanos, dependiendo de las unidades y de la cantidad de desplazamiento que desee.
Crear nuevos puntos en las coordenadas redondeadas
Ahora que tiene los valores redondeados en dos campos, puede crear nuevos puntos en estas ubicaciones.
- En el panel Geoprocesamiento, busque y abra la herramienta Crear capa de eventos XY.
- En el cuadro de diálogo de la herramienta Crear capa de eventos XY, para Tabla XY, elija High_Blood_Level_Results.
- En Campo X, elija Longitude [LongitudeRound].
- En Campo Y, elija Latitude [LatitudeRound].
- En Nombre de capa, escriba High_Blood_Level_Results_Rounded.
De esta forma, creará una nueva capa de puntos, utilizando los valores redondeados de latitud y longitud que haya calculado.
- Haga clic en Ejecutar.
Los puntos obtenidos a partir de los valores de las coordenadas redondeadas se disponen en forma de cuadrícula, espaciados a intervalos de centésimas de grado.
Este planteamiento desplaza los puntos de sus ubicaciones originales, pero podrá preservar parte del patrón espacial original, lo que puede resultar útil para el análisis.
Mapa de calor de puntos original
Mapa de calor de puntos de coordenadas redondeadas
Precaución:
Recuerde que, una vez enmascaradas las posiciones del nivel de puntos mediante un método como el redondeo de coordenadas, debe eliminar de la tabla de atributos los datos de identificación innecesarios, como nombres, fechas de nacimiento, campos de dirección y valores originales de las coordenadas, antes de entregar esos datos a sus compañeros internos autorizados. El desplazamiento de los puntos a valores de coordenadas redondeados no protege la información protegida de salud (IPS) si sigue proporcionando la dirección o las coordenadas originales.
Puede utilizar la herramienta Exportar entidades para exportar una copia de una clase de entidad y compartirla con un miembro autorizado de su organización. En esta herramienta, en la sección Campos, tiene acceso a la lista de campos, donde tiene la opción de eliminar los campos que contengan IPS que no sea necesaria para el proyecto.
A continuación, trazará líneas que unan los puntos originales y redondeados y determinará su longitud.
Documentar los resultados del redondeo de coordenadas
Para la determinación experta, la disociación es necesaria para poder cuantificar y documentar hasta qué punto se han desplazado los puntos. En esta sección, consultará algunas estadísticas relacionadas con el movimiento de puntos mediante el método de redondeo de coordenadas y resumirá cuántos puntos se movieron en cada punto de la cuadrícula.
- Busque y abra la herramienta XY a línea.
- En Tabla de entrada, elija High_Blood_Level_Results_Rounded.
- En Clase de entidad de salida, escriba HBLL_dist.
Esta clase de entidad de línea conecta cada una de las coordenadas de los puntos originales con su correspondiente ubicación de coordenadas redondeadas. Utilizará las entidades de línea para calcular la cantidad de desplazamiento.
- En Campo X de inicio, elija Longitude.
- En Campo Y de inicio, elija Latitude.
- En Campo X de fin, elija Longitude [LongitudeRound].
- En Campo Y de fin, elija Latitude [LatitudeRound].
- Para Tipo de línea, elija Geodésica.
Este es el valor predeterminado. Representa la distancia más corta entre dos puntos de la superficie terrestre.
- Deje vacío el campo Id.
- En Referencia espacial, acepte el valor predeterminado de GCS_WGS_1984.
- Haga clic en Ejecutar.
La capa HBLL_dist se agrega al mapa. Según el nivel de zoom y la extensión de su mapa, puede resultar difícil de ver. Si se acerca a una de las áreas de mayor densidad, verá que un conjunto de líneas conectan cada uno de los puntos originales con sus correspondientes ubicaciones de puntos de coordenadas redondeadas.
- En el panel Contenido, haga clic con el botón derecho en la capa HBLL_dist y haga clic en Tabla de atributos.
Los valores del campo Shape_length son valores decimales pequeños: están en grados. Convertirá las longitudes a unidades planares.
Agregar un campo de distancia y calcular su valor
Agregará un nuevo campo a la tabla de atributos de la capa HBLL_dist y calculará su valor para obtener las distancias a las que se desplazaron los puntos.
- En la tabla de atributos de la capa HBLL_dist, haga clic en Agregar.
Agregará un nuevo campo para contener las distancias en unidades lineales.
- Escriba Distancia en la columna Nombre de campo para el nuevo campo.
- En la columna Tipo de datos del campo Distancia, haga clic en la lista desplegable y haga clic en Doble.
- En la cinta, en la pestaña Campos, en la sección Cambios, haga clic en Guardar.
- Cierre el panel Campos: HBLL_dist.
- En la tabla de atributos HBLL_dist, haga clic con el botón derecho en el encabezado de columna del campo Distancia y haga clic en Calcular geometría.
- En el cuadro de diálogo de la herramienta Calcular geometría, en la lista desplegable Propiedad del valor que agregará al campo Distancia, haga clic en Longitud (geodésica).
- En Unidad de longitud, elija Metros.
- Haga clic en Aceptar.
Las longitudes de las líneas, en metros, se agregan como atributos al campo Distancia.
- Haga clic con el botón derecho en el encabezado de la columna Distancia y haga clic en Visualizar estadísticas.
El panel Estadísticas del campo Distancia muestra estadísticas resumidas del campo de distancia. Revelan que la distancia media a la que se desplazaron los puntos hasta la ubicación de las coordenadas redondeadas fue de 376 metros, con una distancia mínima de 18 metros y una máxima de 684 metros.
La herramienta Estadísticas también crea un histograma de los valores de distancia que podría utilizar para defender sus decisiones al elaborar este producto disociado utilizando el redondeo de coordenadas.
- Cierre el panel Propiedades de gráfico.
- Cierre el gráfico Distribución de distancia.
Recontar el número de puntos en las coordenadas redondeadas
A continuación, calculará cuántos puntos apilados existen después de utilizar el redondeo de coordenadas. A los efectos del análisis de la privacidad y la disociación, puede considerar que este recuento representa cuántos casos hay en el conjunto que podrían representar la identidad de cualquier caso individual. Cuantos más casos tenga en cada pila, mayor será el conjunto y mejor a los efectos de la disociación. Analizará los puntos geográficamente, pero sabe que también tendrá que consultar la unicidad de todos los atributos que ha conservado en una tabla que piensa compartir, ya que una combinación concreta de atributos también podría identificar a un individuo. Por este motivo, se recomienda que proporcione el mínimo dataset viable a sus partes interesadas.
- En el panel Geoprocesamiento, busque y abra la herramienta Recopilar eventos.
- En Entidades de incidentes de entrada, elija High_Blood_Level_Results_Rounded.
- En Clase de entidad de puntos ponderados de salida, escriba HBLL_rounded_counts.
- Haga clic en Ejecutar.
En este caso, algunos de los clústeres tienen hasta 15 puntos apilados, aunque muchos solo tienen uno o dos. Con un dataset más grande, podría tener puntos apilados más densamente.
Ha utilizado el redondeo de coordenadas para enmascarar las ubicaciones de los datos de puntos sensibles al tiempo que le permite conservar varios atributos adicionales asociados a los puntos. Los investigadores de la equidad en salud tienen ahora una mejor oportunidad de realizar análisis adicionales y contar una historia más completa sobre el envenenamiento infantil por plomo en sangre en Sacramento utilizando los datos disociados. Para documentar su método de disociación, calculó las estadísticas relacionadas con el desplazamiento de cada punto y contó el conjunto de puntos de cada pila de ubicaciones de la cuadrícula. Recuerde que también es importante eliminar los atributos que pudieran permitir una reidentificación (como la dirección o las coordenadas de la ubicación original) y que es una práctica recomendada reducir al mínimo el número de atributos del dataset que proporcione.
- Haga clic en Guardar proyecto para guardar su proyecto.
Estudiar planteamientos avanzados
Ha aprendido varios planteamientos para disociar los datos para otros escenarios de uso. Puede haber algunas situaciones en las que necesite adoptar métodos más avanzados. En esta sección, conocerá dos métodos avanzados de disociación de datos: el geoenmascaramiento y la privacidad diferencial.
Dependiendo de adónde le lleve su trabajo de SIG en materia de salud, quizá le interese profundizar e investigar por su cuenta en las siguientes técnicas para poder aplicarlas según sus necesidades.
GeoenmascaramientoEl término geoenmascaramiento se refiere a un grupo de métodos que modifican la ubicación geográfica de puntos individuales, pero de un modo distinto y más potente que el redondeo de coordenadas. Para que el geoenmascaramiento resulte útil, existen dos aspectos clave a tener en cuenta. En primer lugar, la perturbación del punto debe ser imprevisible: así es como se protege la confidencialidad de los datos. En segundo lugar, el punto debe desplazarse de forma que se preserven las relaciones espaciales dentro del dataset. Al fin y al cabo, su trabajo en el SIG consiste en identificar patrones. En las notas que aparecen a continuación, se le presentará un tipo específico de geoenmascaramiento: el método del anillo. A continuación, aprenderá a evaluar estadísticamente el resultado del geoenmascaramiento con k-anonimato. Por último, se le presentará una herramienta que automatiza todo el proceso por usted.
Método de anillo para el geoenmascaramientoLa idea básica del geoenmascaramiento de anillo es que mejora la confidencialidad asegurándose de que el punto desplazado aleatoriamente no pueda terminar nunca en su posición original. Significa que un punto debe desplazarse una distancia mínima respecto de su ubicación original. Al mismo tiempo, para preservar los patrones espaciales, también se calcula un desplazamiento máximo para cada punto. Esas dos distancias crean una zona de desplazamiento en forma de anillo dentro de la cual puede moverse el punto original. Puede obtener más información sobre el método del anillo en este artículo.
El método Determinación experta de la disociación incluye el requisito de documentar el proceso y justificar cómo dicho proceso consigue un riesgo muy bajo de reidentificación de un individuo. Cuando se utiliza la técnica del geoenmascaramiento, la estadística de k-anonimato es la medida de evaluación que servirá de soporte a esa justificación. Puede obtener más información sobre el k-anonimato aquí. La idea general es que el k-anonimato representa el número de hogares de su dataset de los que no se puede distinguir a un sujeto disociado. Por ejemplo, si decide que el valor mínimo de K es de cinco (escrito como KMín=5), está diciendo que hay al menos cinco hogares (o individuos) que podrían representar potencialmente su punto original.
La decisión clave para su organización es determinar qué valor mínimo de K se considera aceptable para la protección de la privacidad. No existe una norma única; sin embargo, puede ser útil consultar las políticas de varias agencias estatales y federales sobre el recuento de celdas pequeñas. Las celdas pequeñas se definen como el número de personas que corresponden a la misma combinación de entidades. La alineación con la política de los organismos gubernamentales acreditados puede ayudar a respaldar la decisión de su organización sobre el desarrollo de su propio estándar. Tenga en cuenta también que un valor estándar para K puede no ser apropiado para todas las situaciones.
MapMasqSi el geoenmascaramiento u otras técnicas de disociación de datos son algo que necesita hacer con regularidad, puede plantearse utilizar MapMasq. Se trata de una solución desarrollada por el colaborador de Esri Esri Axim Geospatial. Funciona como cualquier extensión de ArcGIS y automatiza por usted el proceso de geoenmascaramiento y la evaluación del k-anonimato.
Privacidad diferencialLa privacidad diferencial es una técnica más novedosa que muchos consideran superior a la hora de proteger la privacidad individual. Funciona mejor con datasets más grandes. De hecho, este es el método que la Oficina del Censo de los EE. UU. utilizó para la notificación de datos a partir del censo de 2020. Con la privacidad diferencial, los datos de un dataset se modifican matemáticamente (todos los datos) de forma que se imposibilita la identificación de cualquier individuo, pero también se mantiene la utilidad del dataset. Se inyecta ruido en el dataset en función de un parámetro, epsilon, que se denomina como presupuesto de pérdida de privacidad. El uso de épsilon significa que el riesgo de divulgación de los datos puede cuantificarse, lo que resulta útil para el cumplimiento de las políticas de la organización, así como para la documentación requerida para la Determinación experta.
Una forma de pensar en cómo funciona la privacidad diferencial es imaginar uno de esos mosaicos de imágenes, en los que cientos de imágenes ordinarias se juntan de tal forma que crean una nueva imagen más grande. Con un zoom a nivel de imagen individual, podría reemplazar varias imágenes o moverlas a otros lugares y aun así, cuando se aleje, la imagen global tendrá esencialmente el mismo aspecto. Puede que la imagen grande no sea tan nítida como una fotografía, pero la calidad mejora a medida que se agregan más imágenes individuales.
Aún queda mucho por aprender sobre la privacidad diferencial y su valor para los SIG sanitarios. Se trata de un área que debe conocer porque es posible que ya esté consumiendo datos censales que se han compartido utilizando este método y porque puede haber herramientas que permitan el uso de esta técnica en su propio trabajo geoespacial.
Para obtener más información sobre el impacto de la privacidad diferencial en los datos del censo de los EE. UU. de 2020, consulte el informe metodológico de Esri de junio de 2022, así como este manual de la Oficina del Censo de los EE. UU. sobre cómo evitar la divulgación.
En esta sección, ha aprendido acerca de dos métodos avanzados para la disociación de datos que puede agregar a su conjunto de herramientas para respetar a la HIPAA y otras normas de privacidad. El geoenmascaramiento se centra en el jiggering de los datos de ubicación de forma que se tenga un número KMín de individuos que puedan representar el punto original. La privacidad diferencial ajusta todo utilizando el presupuesto de pérdida de privacidad épsilon para disociar adecuadamente a los individuos. Estará en el buen camino para mantener sus datos y su organización a salvo de las violaciones de la privacidad.
Este tutorial sobre la disociación de datos para su visualización e intercambio ofrece un énfasis en la HIPAA, la ley estadounidense centrada en la protección de la privacidad de la información sanitaria personal. Ha aprendido varias técnicas que le permiten representar y visualizar la información con seguridad. También ha aprendido técnicas que le ayudarán a compartir los datos, ya sea en un mapa web dinámico o como dataset para otras personas que puedan utilizar sus datos para la investigación u otros fines. También habrá aprendido algunas técnicas avanzadas a las que podrá recurrir cuando necesite opciones más potentes para retener datos puntuales.
Un solo tutorial no puede cubrir todas las situaciones. En este tutorial, ha aprendido a pensar espacialmente sobre el problema y a considerar las ventajas e inconvenientes de varios métodos. Independientemente de las técnicas que utilice al trabajar con información sanitaria protegida, piense detenidamente y consulte sus directrices organizativas internas para mantenerse alineado y seguro.
Encontrará más tutoriales en la galería de tutoriales.