Создавайте визуализации на основе карт.
Свинец — это природный металл, который может оказывать негативное воздействие на здоровье, особенно у детей в возрасте до шести лет. Сюда относятся задержки развития, трудности в обучении, поведенческие проблемы и неврологические повреждения, которые могут быть необратимыми и приводить к инвалидности. Руководителям вашего отдела необходимо учитывать географическую информацию при составлении отчетов и принятия решений по устранению отравлений свинцом среди детей.
Сначала вы скачаете и изучите данные. Затем вы отобразите данные о содержании свинца в крови на картах, используя методы, которые сохраняют целостность данных и пространственные закономерности, при этом защищая конфиденциальность отдельных лиц в наборе данных.
Примечание:
Данные этого руководства вымышленные. Они были созданы для демонстрации рабочего процесса в этом руководстве. Они разработаны так, чтобы выглядеть правдоподобно для рабочего процесса, и структурирован аналогично данным, которые вы могли бы использовать в подобной ситуации, но из-за юридических ограничений на предоставление реальных данных такого типа они полностью выдуманы. Не полагайтесь на эти данные. Не пытайтесь делать выводы или принимать реальные решения на основе этих данных. Не используйте эти данные для обучения моделей искусственного интеллекта или машинного обучения — результаты будут неточными. Адреса в этом наборе данных - реальные, для демонстрации геокодирования и предоставления правдоподобных данных для деидентификации, но данные не имеют никакого реального отношения к этим адресам. Любые имена или значения атрибутов, связанные с этими адресами в наборах данных, выдуманы и не имеют никакого отношения к реальным людям или условиям в этих местах.
Изучение данных
Сначала вы загрузите и изучите данные.
- Скачайте архив с данными проекта Blood_Lead_Levels_Zipped_Folder.zip.
- Найдите загруженный файл на вашем компьютере. Щелкните файл правой кнопкой мыши и выберите Извлечь все.

- Укажите расположение выходной папки и нажмите Извлечь.

Этот zip‑архив защищен паролем. Появляется окно пароля.
- В поле Пароль введите I_Understand_This_Is_Fictitious_Data и щелкните OK.
Примечание:
Использование этого пароля означает, что вы понимаете, что данные являются вымышленными.
Файл извлекается на ваш компьютер как папка.
- Откройте извлеченный zip‑файл.
В нем находится файл с именем BloodLeadLevels.ppkx. Файл .ppkx является пакетом проекта ArcGIS Pro, архивированный файл для публикации проектов, содержащий карты, данные и другие файлы, которые вы можете открыть в ArcGIS Pro.
- Дважды щелкните BloodLeadLevels.ppkx, чтобы открыть его в ArcGIS Pro. При появлении запроса войдите в свою учетную запись ArcGIS.
Примечание:
Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.
Появится карта Сакраменто, Калифорния. Вымышленный точечный слой High_Blood_Level_Results показывает расположение домашних адресов детей, у которых был зафиксирован высокий уровень свинца в крови.

Ваша программа наблюдения и снижения воздействия свинца использует результаты анализов крови и местонахождение отдельных пациентов для расследования источников воздействия свинца в домах этих детей. Данные также используются для исследования потенциального воздействия на членов семьи и для отслеживания источников свинца на работе, в школе и в общественных местах.
- Если таблица атрибутов High_Blood_Level_Results еще не открыта, на панели Содержание щелкните правой кнопкой мыши High_Blood_Level_Results и выберите Таблица атрибутов.

Появится таблица.

Слой содержит вымышленные данные о домашнем адресе, имени и фамилии, дне рождения, возрасте, расе, этнической принадлежности, поле, результатах анализов крови и году тестирования. Если бы эти данные были реальными, они считались бы частной, сугубо личной информацией о состоянии здоровья, личности и точном местонахождении несовершеннолетних. Эта информация должна обрабатываться с особой осторожностью в соответствии с законами о конфиденциальности медицинских данных. Поскольку ваша работа требует от вас использовать и передавать эти данные третьим лицам, вы должны знать законы и способы обезличивания данных для обмена.
Многие страны приняли политику защиты конфиденциальной информации, такой как финансовые и медицинские данные. В Соединенных Штатах Акт об ответственности и мобильности (HIPAA) был подписан в 1996 году и служит основным руководством по безопасному использованию медицинских данных.
Министерство здравоохранения и социальных служб США определяет защищенную медицинскую информацию (PHI) как "индивидуально идентифицируемую медицинскую информацию, хранимую или передаваемую регулируемой организацией или ее деловым партнером в любой форме или на любом носителе — электронном, бумажном или устном". Индивидуально идентифицируемая медицинская информация включает демографические данные, которые относятся к:
- прошлому, настоящему или будущему физическому или психическому состоянию человека,
- оказанию медицинской помощи физическому лицу или
- прошлым, настоящим или будущим платежам за оказание медицинской помощи лицу,
и то, что идентифицирует человека, или в отношении чего есть обоснованные мнения полагать, что его можно использовать для идентификации человека. Индивидуально идентифицируемая медицинская информация включает в себя множество общих идентификаторов (например, имя, адрес, дату рождения, номер социального страхования)».
Поскольку таблица данных High_Blood_Level_Results включает информацию об уровнях свинца в крови и идентифицирующую информацию о детях, включая их имена, адреса и даты рождения, это PHI согласно HIPAA и должна быть тщательно защищена в соответствии с Правилом конфиденциальности HIPAA.
Данными такого рода можно делиться только с сотрудниками, имеющими на это разрешение. Это разрешение будет определяться внутренними регламентами организации и обычно распространяется на тех, чьи должностные обязанности требуют доступа к PHI, или на тех, кому предоставлен доступ через внутренние процессы, такие как институциональный наблюдательный совет (IRB), для целей исследования и оценки.
- Прочтите раздел Are You a Covered Entity? на странице Centers for Medicare and Medicaid Services (CMS).
На этой странице представлены инструкции для тех, на кого распространяются правила HIPAA. В документе Covered Entity Decision Tool (PDF) представлено интерактивное дерево решений, которое вы можете использовать, чтобы определить, являетесь ли вы организацией, на которую распространяется действие страховки, и должны ли следовать правилам HIPAA.
В целом, к объектам страхования относятся следующие:
- Планы медицинского страхования — те, которые предоставляют или оплачивают стоимость медицинского обслуживания.
- Поставщики медицинских услуг — те, кто передает данные в электронном виде для любых целей (выставление счетов, направления и т.д.).
- Информационные центры здравоохранения — организации, которые обрабатывают нестандартную медицинскую информацию для соответствия стандартам содержания или формата данных или наоборот, от имени других организаций.
- Деловые партнеры — лицо или организация за пределами основной организации, которые выполняют определенные функции от имени основной организации, включая использование или раскрытие личной медицинской информации. В таких ситуациях застрахованное лицо должно заключить договор с деловым партнером, который возлагает на него те же обязанности и обязательства по защите конфиденциальности, которые подпадают под действие застрахованного лица.
По сценарию данного руководства вы являетесь застрахованным лицом, поскольку в вашей организации есть медицинские клиники.
Данные о состоянии здоровья, подобные уровню свинца в крови, чрезвычайно ценны для выявления различий в состоянии здоровья, оценки политики и стратегического планирования. Вы должны использовать методы, которые защищают личную конфиденциальность, одновременно максимизируя полезность данных для этих важных усилий.
- Прочитайте раздел De-identification Standard на странице HHS.gov.
Вы можете использовать данные ГИС с PHI, но вы должны хранить их на должным образом защищенном локальном компьютерном оборудовании или в защищенной базе геоданных ArcGIS Enterprise. Эти данные не могут быть размещены в ArcGIS Online.
Если вы делитесь данными, вы должны сначала деидентифицировать их.

Целью деидентификации данных является отделение идентифицируемой информации от медицинской информации, чтобы обеспечить очень низкий риск повторной идентификации.
Процесс деидентификации включает в себя удаление идентификаторов из набора данных таким образом, чтобы значительно свести к минимуму вероятность того, что кто-то сможет выяснить личность любого человека в этом наборе данных. Регуляторы знают, что даже при использовании надлежащих методов деидентификации риск идентификации все равно превышает нулевой. Поэтому требования к деидентификации заключаются в обеспечении очень низкого риска повторной идентификации личности. Два принятых метода деидентификации в соответствии со стандартом HIPAA показаны на следующей схеме:

Первый метод деидентификации Safe Harbor требует от вас исключить из данных следующие 18 конкретных идентификаторов:
- Names
- Все географические подразделения меньше штата
- Все элементы дат (кроме года), которые имеют непосредственное отношение к физическому лицу.
- Номера телефонов
- Идентификаторы и серийные номера транспортных средств
- Номера факсов
- Идентификаторы и серийные номера устройств
- Адреса email
- Универсальные веб-локаторы ресурсов (URL-адреса)
- Social Security Numbers
- Адреса интернет-протокола (IP)
- Номера медицинских карт
- Биометрические идентификаторы, включая отпечатки пальцев и голоса.
- Номера получателей плана медицинского страхования
- Фотографии анфас и любые сопоставимые изображения.
- Номера счетов
- Номера сертификатов/лицензий
- Любой другой уникальный идентификационный номер, характеристика или код, за исключением разрешенных случаев.
Большинство данных в слое High_Blood_Level_Results придется удалить полностью.

Этот метод будет не очень полезен, если вы используете ГИС для здравоохранения, но все же стоит о нем знать. Он проще, чем второй метод, но требует немного больше действий, помимо удаления 18 идентификаторов. Менеджер данных также должен учитывать, есть ли в наборе данных какие-либо другие идентификаторы, которые теоретически можно использовать для идентификации человека, например уникальное название должности.
Вы также могли заметить проблему со вторым идентификатором: все географические подразделения меньше штата. Это сделало бы чрезвычайно сложным использование ГИС на детальных масштабах, например, на уровне города или района.
Вы можете начать с этого:

Вплоть до показа на уровне штатов, например, как на следующей карте:

Правила Safe Harbor позволяют использовать первые три цифры почтового индекса, если, согласно текущим данным переписи населения США, трехзначный почтовый индекс имеет более 20 000 человек. Однако лишь немногие сотрудники ГИС здравоохранения используют трехзначные почтовые индексы, а ГИС-специалисты в здравоохранении часто обеспокоены воздействием на здоровье на локальных уровнях.
Чтобы максимально эффективно использовать ваши данные, вы должны использовать второй метод деидентификации, называемый методом экспертного определения.
- Посмотрите руководство по деидентификации Expert Determination.
Метод экспертного определения обладает большой гибкостью. Это требует от пользователя, обладающего адекватными знаниями и опытом, применять общепринятые научные и статистические принципы и методы таким образом, чтобы обезличить данные с очень низким риском повторной идентификации. Ключевым аспектом метода экспертного определения является документирование используемых методов.
Вы должны выбрать лучший метод для предоставления нужного уровня данных различным членам вашей команды в зависимости от их ролей и задач. Вы дадите доступ к идентифицирующим данным на уровне точек некоторым внутренним пользователям. Эти авторизованные пользователи могут осуществлять ведение дел и проводить исследования по поиску потенциальных источников заражения. Им могут понадобиться конкретные адреса проживания, чтобы рассчитать оптимизированные маршруты для посещений на дому. Другим, однако, понадобится обезличенный набор данных с минимальным набором показателей.
Создание карты интенсивности
Разные методы деидентификации полезны для разных случаев использования. Вы должны подумать о цели, аудитории и способе представления карты. Если карта будет статичной, например, в формате PDF, изображения или бумажной карты, и пользователь карты не будет интерактивно взаимодействовать с данными, к символам применяются правила, отличные от случая, когда пользователь карты будет просматривать ее в веб-браузере или приложении, где он может ее масштабировать и исследовать отдельные точки и связанные с ними атрибутивные данные.
Вам необходимо составить карту для печати на плакате, чтобы информировать заинтересованные стороны и общественность о масштабах отравления свинцом среди детей в Сакраменто и рассказать о рисках и целевых вмешательствах, санитарном просвещении и связанных с этим мероприятиях. Карта интенсивности хорошо подходит для этого, поскольку она представляет сглаженную поверхность, показывающую плотность точек в вашем слое, при этом размывая истинное расположение точек.
- Закройте таблицу атрибутов.
- На панели Содержание щелкните правой кнопкой High_Blood_Level_Results и выберите Символы.

Появится панель Символы.
- На панели Символы для Основные символы выберите Карта интенсивности.

Символы слоя изменятся, данные отображаются в виде карты интенсивности.

Ярко-желтое и красное пятно в северо-восточной части города обозначает район, где проживают несколько детей с высоким уровнем свинца в крови. Важно отметить, что вы не можете видеть, сколько именно детей представлено, а также точное расположение их домов. Чтобы дополнительно защитить конфиденциальность пациентов, вы можете отображать эту тепловую карту без включения других административных границ, таких как линии округов или почтовые индексы, а также вы можете изменить базовую карту на ту, где не отображаются названия улиц, чтобы защититься от повторной идентификации конфиденциальных данных. Этот метод визуализации лучше всего работает для наборов данных с большим числом точечных объектов, из которых по крайней мере некоторые из них находятся в непосредственной близости от других.
Примечание:
Наиболее яркие области карты интенсивности иногда называют горячими точками. Несмотря на то, что это подходящий способ описания этих пространственных закономерностей, не следует путать этот тип горячих точек с результатами инструмента Анализ горячих точек, который выявляет статистически значимые кластеры на изучаемой территории.
- На ленте щёлкните вкладку Общий доступ. В группе Выходная щелкните Скопировать в буфер обмена.

Статичное изображение карты интенсивности копируется в буфер обмена. Вы можете вставить это в презентацию или документ и поделиться им, не раскрывая закрытую медицинскую информацию.
- Приблизьтесь к яркой области в северо-восточной части города.

При увеличении масштаба символы карты интенсивности изменяются, показывая относительную плотность точек на экране.

Чем крупнее масштаб, тем больше деталей становится очевидными. Даже если данные размыты относительно исходного точечного представления, в некоторых масштабах карта интенсивности больше не является подходящим способом отображения персональных данных, сохраняя при этом защиту конфиденциальности.

Примечание:
Важно помнить, что если вы намеревались создать интерактивную карту, а не печатную, такая динамическая визуализация тепловой карты может раскрыть личную информацию. При создании интерактивных карт остерегайтесь динамически отображаемых карт интенсивности и рассмотрите возможность ограничения уровня масштабирования.
В некоторых масштабах вы можете определить расположение размытых точек на уровне дома.
- Нажмите на одну из размытых точек.
Появится всплывающее окно.

Во всплывающем окне отображаются атрибуты точки. Использование символов карты интенсивности не защищает данные пациента, когда карта является интерактивной. Точки и их атрибуты все еще присутствуют.
- Закройте всплывающее окно.
- На панели Символы в окне Радиус введите 50.

Символы карты интенсивности изменяются, плотность пересчитывается с учетом большего значения радиуса.

Это новое представление можно использовать, чтобы показать плотность случаев с высоким уровнем свинца в крови в масштабе района.
Рекомендуется изучить различные параметры символов карты интенсивности, чтобы понимать степень и масштаб кластеризации ваших данных, балансируя между необходимостью точного географического отображения данных и требованием защиты конфиденциальности субъектов. Многие проблемы, связанные со здравоохранением, включая вспышки заболеваний, возникают в разных географических масштабах. В некоторых случаях существует точечный источник, вызывающий вспышку, тогда как в других случаях проблема связана с передачей инфекции на уровне сообщества. Понимание и использование данных в соответствующем масштабе является ключом к любому успешному ГИС-анализу здравоохранения.
Изображение статичной карты вашего города можно добавить в отчеты, которые информируют заинтересованные стороны и общественность о масштабах отравления свинцом среди детей в обществе. Карты интенсивности полезны для демонстрации того, как распределяются данные и где они особенно сконцентрированы.
- На Панели инструментов быстрого доступа щелкните кнопку Сохранить проект.

Создание карты кластеров точек
Вам необходимо составить статичную карту планирования для руководства больницы, в которой будет четко указано, где имеются большие и малые концентрации случаев отравления свинцом. Конечно, вы все равно должны делать это таким образом, чтобы защитить частную жизнь людей. В данном случае руководство обеспокоено фактическим количеством случаев в своей зоне обслуживания, поскольку им необходимо обеспечить выделение специалистов и координировать ресурсы программы контроля.
Для этого вы создадите карту кластеров. Техника кластеризации объектов работает путем группировки кластеров точек внутри области и отображения градуированного символа, который показывает количество сгруппированных точек, представленных этим кластером. Этот метод рекомендуется использовать, когда вы хотите показать точные числа на разных масштабах и при этом не нужно или не требуется делиться местоположениями отдельных точек.
- На панели Содержание щелкните слой High_Blood_Level_Results, чтобы выбрать его.
- Щелкните на ленте вкладку Векторный слой. В группе Оформление щелкните Агрегирование и выбери Кластеризация.

- В окне Кластеризация щелкните Да.

Карта обновится и отобразит символы кластеров. Цвет символа назначается случайным образом, а размер и количество кластеров будут зависеть от вашего дисплея и экстента карты.

Размер каждого символа зависит от количества точек в кластере, и они также подписаны этим числом.
- Приблизьтесь к кластеру на северо-востоке города.

Как и символы карты интенсивности, символы кластера адаптируются к уровню масштабирования и экстенту карты. Если вы увеличите масштаб достаточно сильно, вы начнете видеть отдельные местоположения пациентов.

Как и в случае с символами карты интенсивности, в некоторых экстентах и уровнях масштабирования символы кластеров не подходят для защиты персональных данных. Кроме того, как и в случае с символами карты интенсивности, при достаточном приближении в интерактивной версии карты вы можете щелкнуть отдельные точки и получить их атрибуты. Символов кластеров недостаточно для защиты личности пациента на интерактивной карте.
Для статичных карт вы можете настроить кластеризацию для желаемого масштаба и экстента.
- На панели Символы щелкните вкладку Кластеры и вкладку Параметры кластеров.

- Перетащите ползунок Радиус кластера к Верхнему пределу шкалы.

При перетаскивании бегунка Радиус кластера количество кластеров уменьшается, а число точек на кластер увеличивается.

Это похоже на то, как работает радиус карты интенсивности. Вы можете изменить радиус кластера, чтобы настроить степень кластеризации в соответствии с экстентом и масштабом вашей карты.
- На панели Содержание щелкните правой кнопкой High_Blood_Level_Results и выберите Приблизить к слою.

Как и в случае с символами карты интенсивности, радиус, который хорошо подходит для одного масштаба и экстента, может оказаться неприемлемым для другого.

- На панели Символы перетащите бегунок Радиус кластера к Нижнему краю шкалы.

Карты кластеров используются в статических и динамических картах для отображения конкретных чисел случаев (в данном случае наблюдений) и для обозначения пространственных закономерностей в плотности данных. В целях конфиденциальности преимущество заключается в том, что кластеры не привязаны к административным границам, таким как почтовые индексы или округа, которые можно использовать для идентификации отдельных лиц. Вы должны настроить радиус кластера в соответствии с конкретным масштабом и экстентом карты, чтобы передать полезную информацию о закономерностях, не раскрывая местоположения отдельных пациентов.
Поскольку вы создаете статичное изображение карты для руководства больницы, можно использовать карту кластеров, если вы правильно установите радиус этих кластеров. Статичная карта кластеров для коллег-руководителей больницы дает именно ту информацию, которая им необходима для планирования скоординированного подхода к лечению местных детей с высоким уровнем свинца в крови.
- Сохраните проект.
Вы просмотрели данные об уровне свинца в крови. Вы также исследовали определение PHI, субъектов, которые должны соответствовать HIPAA, и два метода деидентификации: Safe Harbor и Экспертное определение. Затем вы использовали два метода визуализации — карты интенсивности и кластеризацию объектов, чтобы отобразить точечные данные, не показывая точные местоположения отдельных людей.
Скрывайте мелкие ячейки сетки
Мелкие ячейки — это полигоны, содержащие агрегированные данные, но в которых количество точек данных достаточно мало, чтобы сделать возможной повторную идентификацию людей. В этом разделе вы объедините два метода для поддержки деперсонализации ваших данных при наличии мелких ячеек: анализ горячих точек и замощение. Анализ горячих точек основан на математических расчетах, которые идентифицируют статистически значимые пространственные кластеры с высокими значениями (горячие точки) и низкими значениями (холодные точки). Замощение — это метод мозаичного деления поверхности одинаковыми, непересекающимися геометрическими фигурами, такими как квадраты, треугольники или шестиугольники. Эти плитки можно использовать для отображения сводной информации о точках данных, которые попадают внутрь них.
Определение горячих и холодных точек
Ваша следующая задача — создать карту, показывающую статистически значимые группы случаев повышенного уровня свинца в крови, для отчета, который будет опубликован в интернете на динамической веб-карте. Вы будете использовать инструмент Оптимизированный анализ горячих точек, чтобы создать карту и отобразить результаты с помощью замощения шестиугольниками.
В ArcGIS Pro инструмент Оптимизированный анализ горячих точек позволяет объединять места с высоким уровнем свинца в крови во взвешенные объекты. Используя распределение объектов с весами, инструмент определит соответствующий вашему анализу масштаб. Это избавляет от необходимости заранее знать размеры шестиугольников. Агрегирование или группирование данных с помощью бинов, также называемых шестиугольниками, является удобным способом визуализации медицинской информации при одновременной защите конфиденциальности пациентов, поскольку они не соответствуют административно-территориальным границам. Второй уровень деидентификации возникает в результате предоставления аналитических результатов (уровней статистической значимости), а не количества случаев.
На вашей веб-карте будут показаны общие закономерности наличия и отсутствия случаев отравления свинцом среди детей на территории исследования, а также будут показаны районы с более высокими концентрациями.
- Щёлкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.

Откроется панель Геообработка. Вы будете использовать эту панель для поиска и запуска инструмента Оптимизированный анализ горячих точек.
- В поле поиска введите оптимизированный анализ горячих точек. В списке результатов щелкните инструмент Оптимизированный анализ горячих точек.

Этот инструмент называется Оптимизированный анализ горячих точек, поскольку он ищет наилучшее расстояние, на котором можно выполнить анализ горячих точек. Это будет расстояние, на котором кластеризация между количествами в соседних бинах будет наиболее выраженной. Если явное расстояние не достигается, оптимизатор вычисляет среднее расстояние, при котором набирается определенное количество ближайших соседей для анализа. Наконец, инструмент сравнивает количество пациентов с высоким уровнем свинца в крови в каждом соседнем кластере бинов со всей областью исследования, чтобы определить z-оценку, которая напрямую связана р-значением, определяющим статистическую значимость.
- Для Входных объектов выберите High_Blood_Level_Results.
- Для Выходных объектов оставьте расположение по умолчанию. Введите имя класса объектов High_Blood_Lead_Hot_Spots.

- Оставьте параметр Поле анализа пустым.
Если с входными объектами связано числовое значение, вы можете использовать параметр Поле анализа, чтобы учесть эти значения при анализе горячих точек. В этом случае параметр Поле анализа не задается. Вы будете оценивать распределение точек High_Blood_Level_Results на предмет горячих и холодных точек.
- Для параметра Метод агрегирования данных инцидентов выберите Подсчет количества инцидентов внутри гексагональной сетки.
- Для параметра Ограничивающие полигоны, определяющие места возможных инцидентов выберите Sacramento_ZIP_Codes.

Слой содержит полигоны почтовых индексов Сакраменто. Эти функции будут использоваться инструментом для определения мест, где могут встречаться точки. По сути, вы указываете изучаемую область для инструмента, поэтому территории, находящиеся за ее пределами в Сакраменто, но все еще в пределах максимального ограничивающего прямоугольника входных точек, не будут идентифицированы как холодные точки.
- Щелкните Запустить.
Инструмент отработает и слой High_Blood_Lead_Hot_Spots будет добавлен на карту.
- На панели Содержание снимите отметку для слоя High_Blood_Level_Results, чтобы изучить новый слой.

Классы символов слоя представлены на панели Содержание.

Результаты работы инструмента синим цветом показывают статистически холодные точки, красным - статистически горячие точки, а белым - незначимые величины.
Вы можете поделиться этим слоем, чтобы показать распределение значительно высокого и низкого количества случаев. Однако прежде чем поделиться им, вам необходимо удалить поле Counts. Это поле показывает число случаев в каждом бине. Предоставление конкретных чисел, особенно для ячеек с небольшим числом случаев, может не обеспечить адекватную защиту конфиденциальности пациентов, хотя это частично зависит от размера ячейки и частоты возникновения заболевания.
Далее настройте символы для слоя анализа горячих точек на основе общего количества случаев в каждом бине. Этот метод не только показывает области концентрации, но также позволяет четко указать диапазон количества случаев.
- Сохраните проект.
Настройка символов для бинов по количеству
Вам требуется составить отчет, который будет передан внутренним аналитикам, работающим над проектом по смягчению последствий, им необходимо знать количество случаев заболевания в определенной области, но не расположение конкретных точек. Измените символы, чтобы отобразить общее количество объектов в каждом полигоне.
Сначала вы сделаете копию слоя, чтобы у вас были оба варианта настройки символов.
- На панели Содержание щелкните правой кнопкой слой High_Blood_Lead_Hot_Spots и выберите Копировать.

- На панели Содержание щелкните правой кнопкой Карта и выберите Вставить.

- На панели Содержание щелкните имя вставленного слоя, чтобы изменить его.

- Введите High_Blood_Lead_Hexbin_Counts и нажмите Enter.
- На панели Содержание снимите отметку для слоя High_Blood_Lead_Hot_Spots, чтобы его отключить.
- Щелкните правой кнопкой слой High_Blood_Lead_Hexbin_Counts и выберите Символы.
- На панели Символы для Поля выберите Counts.
- Щелкните ниспадающий список Цветовая схема, пролистайте вниз и щелкните шкалу Красные (7 классов).

- Для Классы выберите 5.

- В таблице символов щелкните правой кнопкой символ для наименьшего класса (≤ 0) и выберите Нет цвета.

Прозрачный цвет бинов с нулевыми значениями дает больше контекста для читателя карты и фокусирует внимание на ячейках, где находятся пациенты с высоким уровнем свинца в крови.
Есть бины, внутри которых находится по 1 точке. В большинстве случаев не требуется отображать единичный случай в одном бине. Для этого размер ячейки определенно слишком мал. Вы можете настроить гистограмму градуированных символов, чтобы изменить классы символов карты.
- Перейдите на вкладку Гистограмма.

- На гистограмме дважды щелкните маркер 1, чтобы его изменить. Введите 2 и нажмите Enter.

- Измените маркер с 3 на 4.
Заданы новые границы интервалов классов.

Символы обновлены, теперь бины с 1 и 2 случаями внутри сгруппированы в один диапазон.

Подходящее число для минимального количества случаев в бине варьируется в зависимости от сценария и правил вашей организации. Для типовых событий вы можете использовать меньшее число, а для редких рекомендуется использовать большее значение. Также важно учитывать площадь каждого из них и количество людей (и потенциальных случаев), которые можно обнаружить в одном из них. Чем больше бин и чем больше количество людей, тем ниже можно установить минимальное количество случаев без риска повторной идентификации.
Теперь вы готовы поделиться этой информацией со своими коллегами, выполняющими анализ. Хотя они являются штатными сотрудниками вашей организации и, возможно, имеют все необходимые разрешения для использования необработанных данных, им фактически не нужны данные точечного уровня для их работы. Рекомендуется предоставлять минимально возможный набор данных, исходя из рабочих потребностей. Это сбалансированный подход, который предлагает достаточно точные данные, чтобы сосредоточиться на местных проблемах (лучше, чем на уровне почтового индекса), избегая при этом перспективы обмена точечными данными, содержащими PHI, там, где они не нужны.
- Сохраните проект.
Вы использовали инструмент Оптимизированный анализ горячих точек, чтобы установить подходящий размер бинов (на основе оптимального масштаба анализа, а не на основе требований конфиденциальности) для входных точечных объектов, и обозначили бины символами, чтобы показать статистическую значимость. Использование карты горячих точек для выделения областей, вызывающих вопросы, позволяет выявить проблему, но в то же время делает невозможным идентификацию отдельных лиц. Вы также повторно настроили символы для бинов, чтобы показать фактическое количество случаев для другого аналитического процесса. Вы использовали метод, который не требовал, чтобы отдельные точки передавались заинтересованным лицам, у которых нет для этого разрешения или которые фактически не нуждались в них для своей работы. В результате вы получили четкое визуальное представление областей с большим количеством случаев повышенного уровня свинца в крови по всей исследуемой территории.
Генерализация и агрегирование данных
Далее просмотрите данные по годам и узнаете, как защитить индивидуальную информацию и избежать идентификации небольших групп данных в картографических продуктах, которые будут опубликованы. Вы узнаете, как обобщать и агрегировать данные для защиты конфиденциальной информации, используя методы, которые будут по-прежнему показывать соответствующие закономерности в данных. Что касается данных о состоянии здоровья, то зачастую наиболее информативными являются закономерности; местонахождение отдельных случаев не всегда необходимо в целях информирования. Например, как аналитик вы можете захотеть использовать обобщенные или агрегированные данные из годовых отчетов и отчетов по надзору за отравлениями свинцом у детей, а не отдельные точки, используемые при ведении пациентов и расследованиях.
Обобщение данных предполагает упрощение данных за счет уменьшения их сложности или детализации. Например, вы можете обобщить данные о дате рождения до года рождения. Вы можете обобщить возрастные группы в группы с 10-летним интервалом. Также вы можете объединить такие племенные группы, как чероки, навахо и чокто, в категорию американских индейцев. С другой стороны, агрегирование предполагает объединение нескольких точек данных в единую сводную статистику, например, количество рождений в год. Вы сосредоточитесь на методах агрегирования, но также можете применить методы обобщения к базовым данным, чтобы еще больше скрыть конфиденциальную информацию.
Суммировать данные
Вы начнете с суммирования данных по годам, используя слой почтового индекса исследуемой области. Границы почтовых индексов часто используются в статистике здравоохранения. Это имеет плюсы и минусы. С другой стороны, почтовые индексы меньше, чем переписные округа, и большинство людей знают свой почтовый индекс и могут найти его на карте. С другой стороны, границы почтовых индексов — это искусственные области, предназначенные для эффективной доставки почты, и они могут меняться со временем. Вы, как аналитик, должны решить, соответствуют ли они вашим потребностям и правилам публикации данных вашей организации.
- Откройте панель Геообработка и нажмите кнопку Назад.
Подсказка:
Если вы не можете найти панель Геообработка, на ленте щелкните вкладку Анализ. В группе Геообработка щелкните Инструменты.
- В поле поиска введите суммировать в пределах. В списке результатов щелкните Суммировать в пределах (Инструменты анализа).

Есть еще один инструмент Суммировать в пределах из набора инструментов GeoAnalytics Desktop Tools, но в данном руководстве вам нужен именно инструмент из группы Инструменты Анализа.
- Для Входных полигонов выберите Sacramento_Zip_Codes.

- Для Входных суммируемых объектов выберите слой High_Blood_Level_Results.

- Для Выходного класса объектов оставьте расположение по умолчанию. В качестве имени класса объектов введите HBLL_by_zip_year.

- Для Поле группировки выберите опцию Blood Level Test Year.

- Щелкните Запустить.
Слой HBLL_by_zip_year добавлен на карту. В разделе Автономные таблицы также добавляется таблица testYear_Summary. Эта таблица содержит итоговые данные с количествами по почтовым индексам за год. Её можно присоединить обратно к слою HBLL_by_zip_year, чтобы отобразить значения по каждому году.
Присоедините таблицу к классу объектов
Теперь соедините сводную таблицу с результирующим классом объектов, чтобы у вас был единый класс объектов с данными, обобщенными по почтовому индексу и году. Это позволит вам создавать слои для отображения данных за каждый год.
- На панели Содержание щелкните правой кнопкой мыши слой HBLL_by_zip_year и затем Таблица атрибутов.

В таблице показаны данные из исходных полигонов почтового индекса и данные, добавленные с помощью инструмента Суммировать в пределах. Поле Количество точек показывает общее количество случаев в каждом полигоне почтового индекса. Поле JOIN ID содержит значения, которые вы можете использовать, чтобы присоединить атрибуты из таблицы testYear_Summary в этот слой. Всего в этом классе объектов 17 полигонов почтовых индексов.
- На панели Содержание в разделе Автономные таблицы щелкните правой кнопкой таблицу testYear_Summary и выберите Открыть.

Поле JOIN ID содержит значения, которые вы можете использовать для присоединения атрибутов к слою HBLL_by_zip_year. Поле testYear хранит значения по годам по пробам крови. Поле Counts of Points показывает общее количество случаев в каждом полигоне почтового индекса за каждый год, всего в таблице 50 записей.
- Закройте обе таблицы.
- На панели Содержание щелкните правой кнопкой HBLL_by_zip_year, наведите курсор на Соединения и связи и выберите Добавить соединение.

В окне Добавить соединение параметр Входная таблица установлен на слой HBLL_by_zip_year.
- Для Входного поля выберите JOIN ID.
Рядом с параметром Входное поле значок предупреждения указывает на то, что поле не проиндексировано. Для таких небольших таблиц, как эта, это не является проблемой.
- Для Соединяемой таблицы выберите таблицу testYear_Summary.
- Для Входного поля выберите JOIN ID.
- Щелкните Проверить соединение.

Процесс Проверки соединения запускается и возвращает сообщение.

Поскольку два поля не проиндексированы, инструмент рекомендует создать для них индексы, чтобы повысить производительность. Учитывая количество включенных объектов, в этом нет необходимости.
Инструмент также сообщает, что это соединение один-ко-многим и что полученный объединенный класс объектов будет иметь 50 записей (по одной на каждую запись в таблице testYear_Summary).
- Щёлкните Закрыть, в окне Сообщения.
- Щёлкните OK в окне Добавить соединение.
Таблица атрибутов слоя HBLL_by_zip_year обновится, в ней появятся дополнительные поля из testYear_Summary, а также дополнительные записи для сочетаний полигонов почтовых индексов и тестовых годов.
Результаты работы инструмента Добавить соединение являются временными. Вы создадите копию класса объектов со всеми объектами, экспортировав ее в новый класс объектов.
- Щелкните правой кнопкой слой HBLL_by_zip_year перейдите к меню Данные и выберите Экспорт объектов.
- В окне Экспорт объектов для Выходного класса объектов введите HBLL_by_zip_all_years.

- Нажмите OK.
Новый класс объектов сохраняется в базе геоданных проекта и добавляется на панель Содержание. Старый слой больше не нужен.
- На панели Содержание щелкните правой кнопкой слой HBLL_by_zip_year и выберите Удалить.

Присвоение символов слою
Далее вы присвоите символы слою.
- В панели Содержание отключите все слои, кроме слоя HBLL_by_zip_all_years.
- Щелкните правой кнопкой слой HBLL_by_zip_all_years и выберите Символы.
- На панели Символы в разделе Основные символы выберите Градуированные символы.
- Для Поле выберите второе из полей Count of Points, которое находится под Join ID.

Это поле содержит совокупное количество точек внутри полигона, произошедших в определенном году. Первое поле содержит общее количество за все три года.
- Для Максимального размера введите 40 тчк.

Символы слоя обновляются.

На карте отображаются несколько точечных символов разного размера на каждом полигоне. Это связано с тем, что слой HBLL_by_zip_all_years содержит несколько копий каждого полигона почтового индекса, по одной для каждого года, для которого в этом почтовом индексе были случаи. Диапазон размеров символов основан на диапазоне значений, но карту трудно читать. Невозможно определить, какой точечный символ соответствует какому году.
- На ленте щелкните вкладку Карта. В группе Навигация щелкните стрелку ниспадающего списка инструмента Исследовать и выберите Видимые слои.

- Щелкните самый северо-восточный полигон почтовых индексов.

На карте видны только два точечных символа, но верхняя часть всплывающего окна показывает, что в этом месте содержатся три объекта из слоя HBLL_by_zip_all_years. Нижняя часть всплывающего окна отображает атрибуты верхнего объекта. Поля testYear и Count of Points показывают, сколько случаев было в почтовом индексе 95821 в каждый из годов.

- В верхней части всплывающего окна щелкните по двум другим объектам Sacramento, чтобы просмотреть атрибуты оставшихся двух объектов.

В почтовом индексе 95821 было 24 случая в 2018 году, 48 — в 2019 году и 26 — в 2020 году.
- Закройте всплывающее окно.
Отобразить данные по годам
Теперь, когда у вас есть слой HBLL_by_zip_all_years с количеством почтовых индексов по годам, вы сделаете копии слоя, чтобы визуализировать распределение случаев с высоким уровнем свинца в крови за каждый год.
- На панели Содержание щелкните правой кнопкой мыши слой HBLL_by_zip_all_years и выберите Копировать.
- На панели Содержание щелкните правой кнопкой Карта и выберите Вставить.
- Переименуйте копию слоя HBLL_by_zip_all_years в HBLL_by_zip_2018.
- Дважды щелкните слой HBLL_by_zip_2018.
Откроется окно Свойства слоя.
- На панели Свойства слоя щелкните вкладку Определяющий запрос.
- Щелкните Новый определяющий запрос.

- Создайте запрос вида Где testYear равно 2018.

Этот запрос отфильтрует слой так, что на карте будут показаны только полигоны за 2018 год.
- Нажмите кнопку Применить, затем кнопку ОК.
- На панели Содержание щелкните правой кнопкой мыши слой HBLL_by_zip_2018 и выберите Копировать.
- На панели Содержание щелкните правой кнопкой Карта и выберите Вставить.
- Переименуйте новую копию слоя как HBLL_by_zip_2019.
- Дважды щелкните слой HBLL_by_zip_2019, чтобы открыть окно Свойства слоя.
- На вкладке Определяющий запрос, на карточке Запрос 1, щелкните Редактировать.

Вы измените определяющий запрос для слоя 2019 года, чтобы отобразить данные за 2019 год.
- Измените значение года на 2019.

- Нажмите кнопку Применить, затем кнопку ОК.
- Сделайте копию слоя HBLL_by_zip_2019, переименуйте ее в HBLL_by_zip_2020 и обновите определяющий запрос для отображения данных за 2020 год.
Теперь есть отдельный слой, показывающий округа с высоким уровнем свинца в крови за каждый год.
Далее вы изучите два различных метода агрегирования для достижения минимального порогового значения вашей организации. Ваше руководство определило, что если на какой-то территории, например, в пределах почтового индекса, происходит 5 или более наблюдений, вы можете отобразить данные для этого почтового индекса в слое, который будет опубликован для всех.
- На карте щелкните центральный полигон почтового индекса с наименьшим количеством случаев.

Верхний слой на панели Содержание, HBLL_by_zip_2020, будет показан первым.

В 2020 году в этом полигоне было зарегистрировано только 2 случая. Это число меньше, чем пять – минимальное пороговое значение, указанное вашей организацией для публикации данных по почтовым индексам.
- На панели Всплывающее окно для HBLL_by_zip_2019 щелкните Sacramento, чтобы увидеть атрибуты для 2019.

В 2019 году в этом почтовом индексе было зарегистрировано три случая. Вы можете опубликовать объединенные данные по этому почтовому индексу за 2019 и 2020 годы, поскольку сумма значений за эти два года равна пяти.
- Закройте всплывающее окно.
Объедините данные за несколько лет
Одним из способов достижения минимального порогового значения вашей организации является агрегирование данных за несколько лет до тех пор, пока вы не получите минимум пять случаев в каждом почтовом индексе. Этот подход уменьшает временное разрешение для сохранения пространственного разрешения.
- На ленте на вкладке Карта в группе Выборка щелкните Выбрать по атрибуту.
- На панели Выбрать по атрибутам для Входных строк выберите High_Blood_Level_Results.

- Щелкните Выбрать поле и выберите Blood Level Test Year.
- Оставьте оператор, указанный по умолчанию - равно.
- Щелкните ниспадающий список для значения сравнения и выберите 2020.

- Щелкните Добавить условие.

Логический оператор для комбинирования выражений в запросе - И. Этот оператор позволяет создавать запросы для выбора объектов, где значение одного поля является каким-то одним, а значение другого поля — каким-то другим, либо где значения находятся в пределах диапазона, если вы используете сравнения «больше» и «меньше». Однако в этом случае вы создадите запрос для выбора объектов, где год теста равен 2020 или 2019.
- Щелкните логический оператор И и выберите ИЛИ.

- Укажите поле Blood Level Test Year и примите выбор оператора по умолчанию - равно.
- Щелкните значение в ниспадающем списке и выберите 2019.

Теперь в инструменте Выбрать по атрибуту все готово к выбору объектов со значениями 2020 или 2019 в поле Blood Level Test Year.
- Нажмите OK.
Выбраны записи объектов High_Blood_Level_Results для 2020 или 2019. Вы не видите их на карте, потому что слой High_Blood_Level_Results отключен. Однако под представлением карты отображается количество выбранных объектов, равное 270.

Далее запустите инструмент Суммировать в пределах, чтобы получить количество выбранных объектов по почтовому индексу.
- Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.
- Найдите и откройте инструмент Суммировать в пределах.
- Для Входных полигонов выберите Sacramento_Zip_Codes.
- Для Входных суммируемых объектов выберите слой High_Blood_Level_Results.
- Для Выходного класса объектов введите HBLL_by_zip_2019_2020.

Инструмент Суммировать в пределах предупреждает, что во входных данных есть выборка и обрабатываться будет только это подмножество записей, что и требуется.
- Щелкните Запустить.
Новый слой HBLL_by_zip_2019_2020 добавится на панель Содержание.
- На панели Содержание щелкните правой кнопкой слой HBLL_by_zip_2019_2020 и выберите Таблица атрибутов.
- Щелкните правой кнопкой заголовок столбца Количество точек и затем Сортировать по возрастанию.

В отсортированном столбце показано, что в этом слое нет полигонов почтовых индексов, имеющих менее пяти зарегистрированных случаев.

В соответствии с минимальным пороговым значением вашей организации сгруппированные данные за 2019 и 2020 годы могут быть опубликованы с детальностью почтовых индексов.
- Закройте таблицу атрибутов.
Очистите выборку, чтобы она не повлияла на работу других инструментов.
- Щелкните правой кнопкой мыши в любом месте карты и выберите Очистить.

Слияние полигонов почтовых индексов
Предположим, вам нужно передать данные за 2020 год и не включать данные за 2019 год. Вы будете использовать второй метод для достижения минимального допустимого порога вашей организации, агрегируя почтовые индексы за один год, пока в каждой агрегированной области не будет более пяти случаев. Этот подход делает более грубым пространственное разрешение для сохранения временного разрешения.
- На панели Геообработка щелкните кнопку Назад.
- Найти Построить сбалансированные зоны. В списке результатов щелкните Построить сбалансированные зоны.

- Для Входных объектов выберите HBLL_by_zip_2020.
Появится примечание о том, что входные данные имеют фильтр. Это связано с тем, что к слою применяется определяющий запрос, фильтрующий его так, чтобы отображались только данные 2020 года.
- Для Выходных объектов введите HBLL_2020_Zones.

- Убедитесь, что для параметра Метод создания зон задано значение Целевой атрибут.
- В разделе Критерий построения зон с целевым атрибутом для Переменной выберите Count of Points [Point_Count_1].
![Переменная задана как Count of Points [Point_Count_1] Переменная задана как Count of Points [Point_Count_1]](GUID-39C9E9C5-B5FF-4807-AEBB-AFFEFDCC76CE-web.png)
- В окне Сумма введите 12.
Это значение выше, чем минимальное значение организации - 5. Инструмент Построить сбалансированные зоны использует Целевые переменные в качестве целевых значений для генетического алгоритма со случайным заполнением, но результаты будут лишь приблизительно соответствовать целевым значениям, поэтому, если вы установите более низкое значение, вполне вероятно, что в некоторых зонах будет меньше пяти случаев.
- Для Пространственных ограничений выберите параметр Только совпадающие ребра.

Инструмент Построить сбалансированные зоны готов к запуску.
Примечание:
Если бы у вас были другие критерии для зон, например минимальная численность населения, вы могли бы добавить еще одну переменную и значение, но для этой задачи достаточно создать зоны с целевым числом не менее 12 случаев. Подробнее об инструменте можно посмотреть в документации.
- Щелкните Запустить.
Результаты будут добавлены на карту.
- На панели Содержание отключите все слои кроме HBLL_2020_Zones.

Исходные полигоны почтового индекса сохраняются, но у них появляются новые атрибуты, распределяющие их по разным зонам. Выполните слияние полигонов, чтобы для каждой зоны остался один объект.
- На панели Геообработка щелкните кнопку Назад.
- Найдите и откройте инструмент Попарное слияние по атрибуту.

- Для Входных объектов выберите HBLL_2020_Zones.
- Для Выходного класса объектов введите HBLL_2020_Zip_Dissolve.

- Для Поля слияния выберите Zone ID.

- Для Поля статистики выберите Count of Points. Убедитесь, что для Типа статистики установлено значение Сумма.
- Снимите отметку с опции Создать составной объект.

- Щелкните Запустить.
Слой с объединенными границами будет добавлен на карту.

- На панели Содержание щелкните правой кнопкой мыши слой HBLL_2020_Zip_Dissolve и выберите Таблица атрибутов.
Количество точек во всех зонах превышает 5, а большинство из них имеют 12 и более точек. Это соответствует рекомендациям вашей организации.

- Закройте таблицу атрибутов.
Как аналитик Программы по предотвращению детского отравления свинцом, вы должны решить, какой метод наиболее подходит для предоставления значимых и действенных данных для юрисдикций, которые часто скрывают свои данные. Агрегирование по годам означает, что ваш конечный пользователь не может распознать временные изменения по объединенным годам, но он может видеть значения для небольших географических областей, которые в противном случае могли бы быть скрыты. Объединение нескольких почтовых индексов может позволить выявить очевидные временные тенденции при нанесении на карту каждого отдельного года, но географическая детализация будет уменьшена. Каждый метод должен быть выбран в соответствии с целевой аудиторией и целями отчетности и обмена данными.
Добавление значений координат к точкам
До этого момента вы создавали карты для заинтересованных сторон, которые сосредоточены на вопросах, касающихся масштабов высоких уровней свинца в крови в округе Сакраменто, общего числа случаев и различных способов рассмотрения пространственных и временных закономерностей в данных.
Далее вы будете работать со своей командой по обеспечению равенства в отношении здоровья. Они хотели бы провести исследование, чтобы определить, существуют ли какие-либо другие факторы, связанные с высоким уровнем свинца в крови у детей, такие как пол, раса или этническая принадлежность и возраст. Чтобы помочь их работе, вы должны предоставить им обезличенный набор данных уровня точек, который включает все интересующие переменные для каждого ребенка, а также их общее местоположение. Для выполнения этой задачи воспользуетесь округлением координат и проверите некоторую статистику, чтобы обосновать уровни округления.
Сначала вы добавите к точечным объектам атрибуты со значениями широты и долготы в десятичных градусах.
- На панели Геообработка найдите и откройте инструмент Вычислить атрибуты геометрии.

- Для Входных объектов выберите High_Blood_Level_Results.
- В разделе Атрибуты геометрии в Поле (существующее или новое) введите Latitude.

Это добавит новое поле в таблицу атрибутов для хранения значений широты каждой точки.
- Для Свойства выберите Координата y точки.

Значение координаты y точки будет добавлено к полю Latitude.
- Во второй строке в Поле (существующее или новое) введите Longitude. Для Свойства выберите Координата x точки.
- Для Формат координат выберите Десятичные градусы.

- Щелкните кнопку Выбрать систему координат.

- В окне Система координат найдите WGS 1984.
- Разверните Географическая система координат и затем Мир. Щелкните WGS 1984.

- Нажмите OK.
- В инструменте Вычислить атрибуты геометрии щелкните Запустить.
- На панели Содержание щелкните правой кнопкой слой High_Blood_Level_Results и выберите Таблица атрибутов. Прокрутите таблицу до конца, пока не увидите новые поля Latitude и Longitude.

Теперь, когда у вас есть значения широты и долготы точек, хранящиеся в атрибутах, вы можете создать новые поля для хранения округленных значений и расчета новых округленных значений.
Примечание:
Существует несколько способов манипулирования координатами широты и долготы, которые представляют собой точки расположения случаев повышенного уровня свинца в крови. Вы можете усечь или округлить координаты, привязав местоположение каждой точки по сетке с более низким разрешением по всей изучаемой области. Вы также можете изменить местоположения, заменив одну или две последние цифры каждой координаты случайным числом. Это перемещает каждую точку на случайное расстояние и направление.
Добавите поля для округленных координат
Вы создадите два поля для хранения округленных значений координат.
- Щелкните правой кнопкой мыши High_Blood_Level_Results, укажите Дизайн данных и выберите Поля.
Появится таблица полей. В ней каждое поле слоя High_Blood_Level_Results отображается в виде строки. Вы будете использовать таблицу для добавления двух новых полей в слой.
- Пролистайте до низа списка полей.
- Щелкните заголовок строки для поля Latitude. Удерживая клавишу Ctrl, щелкните заголовок строки Longitude.

- Щелкните правой кнопкой заголовок строки для Latitude и выберите Копировать.

- Щелкните правой кнопкой заголовок строки для Latitude и выберите Вставить.
В таблице появляются две новые строки с именами Latitude1 и Longitude1. Измените имена и псевдонимы скопированных полей.
- В столбце Имя поля дважды щелкните Latitude1 и введите LatitudeRound.

- Переименуйте Longitude1 в LongitudeRound.
- В столбце Псевдоним для LatitudeRound введите Latitude Rounded.
- В столбце Псевдоним для поля LongitudeRound введите Longitude Rounded.
Имена и псевдонимы для скопированных полей заданы.
- На вкладке Поля ленты, в группе Управление изменениями, щелкните Сохранить.

Два новых поля добавлены в схему таблицы для класса объектов High_Blood_Level_Results.
- Закройте вид Поля.
Округление координат
Далее вы рассчитаете округленные значения координат и сохраните их в новых полях.
- В таблице атрибутов для слоя High_Blood_Level_Results щелкните правой кнопкой мыши на поле Latitude Rounded и выберите Вычислить поле.

- В окне Вычислить поле для Тип выражения выберите Arcade.

Arcade — это легкий язык выражений, написанный для ArcGIS.
- В поле выражения введите или скопируйте и вставьте следующее выражение Arcade:
Round($feature.Latitude,2)
Этот код использует функцию Round, устанавливая значение поля Latitude Rounded равным значению в поле Latitude, округленному до двух десятичных знаков. При этом информация о местоположении точек округляется до сотых долей градуса.
- Щелкните кнопку Проверить.

- Щелкните Применить.
Округленные значения рассчитываются и добавляются в таблицу атрибутов в поле Latitude Rounded.

Вы используете тот же метод для вычисления значений поля Longitude Rounded.
- В окне Вычислить поле для параметра Имя поля (существующее или новое) выберите Longitude Rounded.
- В поле выражения замените существующее выражение следующим:
Round($feature.Longitude,2) - Нажмите OK.
Поля Latitude Rounded и Longitude Rounded округлены до двух знаков после запятой.

Примечание:
Если бы ваши координаты были в планарной системе координат, такой как California State Plane or UTM, значения координат были бы в линейных единицах, а не в десятичных градусах. В этом случае вам нужно будет рассчитать подходящий интервал для округленных точек и округлить значения до этого интервала. Например, вы можете выбрать округление до ближайших 1000 футов или 100 метров, в зависимости от единиц измерения и желаемой величины смещения.
- Закройте таблицу атрибутов.
Создайте новые точки
Теперь, когда у вас есть округленные значения в двух полях, вы можете создать в этих местах новые точки.
- На панели Геообработка найдите и откройте инструмент Создать слой событий XY.

- Для XY-таблицы выберите High_Blood_Level_Results.
- Для Поля X выберите Longitude [LongitudeRound].
- Для Поля Y выберите Latitude [LatitudeRound].
- Для Имени выходного слоя введите High_Blood_Level_Results_Rounded.
- Убедитесь, что для параметра Пространственная привязка установлено значение GCS_WGS_1984.

С этими параметрами инструмент создаст новый слой точек, используя рассчитанные вами округленные значения широты и долготы.
- Щелкните Запустить.
- На панели Содержание отключите все слои, кроме High_Blood_Level_Results_Rounded и World Street Map.

Точки, полученные из округленных значений координат, расположены в виде сетки с интервалом в сотые доли градуса. Этот подход перемещает точки из их исходных местоположений, но позволяет сохранить часть исходной пространственной структуры, что может быть полезно для анализа.

Карта интенсивности на основе исходных точек

Карта интенсивности на основе округленных координат точек
Внимание:
После того как точные положения точек были замаскированы методом, например округлением координат, вам все равно следует удалить ненужные идентифицирующие PHI, такие как имена, даты рождения, поля адреса и исходные значения координат, из таблицы атрибутов перед передачей этих данных авторизованным внутренним коллегам. Перемещение точек по округленным значениям координат не защищает PHI, если вы по-прежнему указываете исходный адрес или координаты.
Вы можете использовать инструмент Экспорт объектов для экспорта копии класса объектов, чтобы предоставить ее авторизованным участникам вашей организации. В этом инструменте в разделе Поля у вас есть доступ к списку полей, где вы можете удалить поля, содержащие PHI, которые не требуются для проекта.
Документирование результатов округления
Для экспертного определения необходима деидентификация, чтобы иметь возможность количественно оценить и задокументировать степень перемещения точек. Вы рассмотрите некоторые статистические данные, связанные с перемещением точек с использованием метода округления координат, и подведете итог, сколько точек было перемещено в каждую ячейку сетки.
- Найдите и откройте инструмент XY в линию.

- Для Входной таблицы выберите High_Blood_Level_Results_Rounded.
- Для Выходного класса объектов введите HBLL_dist.

Этот класс линейных объектов соединит координаты каждой исходной точки с соответствующим местоположением с округленными координатами. Вы будете использовать линейные объекты для расчета величины смещения.
- Для Начальное поле X выберите Longitude [Longitude].
- Для Начально поле Y выберите Latitude [Latitude].
- Для Конечное поле X выберите Longitude [LongitudeRound].
- Для Конечное поле Y выберите Latitude [LatitudeRound].

- В качестве Типа линии выберите Геодезическая.
Это значение представляет кратчайшее расстояние между двумя точками на поверхности Земли.
- Оставьте поле ID пустым.
- В качестве Пространственной привязки примите значение по умолчанию GCS_WGS_1984.

- Щелкните Запустить.
Слой HBLL_dist добавлен на карту. В зависимости от уровня масштабирования и размера вашей карты ее может быть трудно рассмотреть. Если увеличить масштаб одной из областей с высокой плотностью, вы увидите, что набор линий соединяет каждую исходную точку с соответствующим местоположением округленных координат.

- На панели Содержание щелкните правой кнопкой слой HBLL_dist и выберите Таблица атрибутов.
Значения в поле Shape_Length представлены небольшими десятичными значениями, выраженными в градусах. Вы преобразуете длины в планарные единицы измерения.

Добавьте поле расстояния
Вы добавите новое поле в таблицу атрибутов слоя HBLL_dist и вычислите его значение, чтобы получить расстояния, на которые были смещены точки.
- В таблице атрибутов щелкните Добавить.

Появится таблица Поля. Вы добавите новое поле для хранения расстояний в линейных единицах.
- В столбец Имя поля в нижней строке введите Distance.
- В столбце Тип данных в нижней строке выберите Double.

- На вкладке Поля ленты, в группе Управление изменениями, щелкните Сохранить.

- Закройте вид Поля.
- В таблице атрибутов щелкните правой кнопкой заголовок столбца Distance и выберите Вычислить геометрию.

- В окне Вычислить геометрию для параметра Свойство выберите Длина (геодезическая).

- В качестве Единиц длины выберите Метры.

- Нажмите OK.
Длины линий в метрах добавляются как атрибуты в поле Distance.
- Щелкните правой кнопкой заголовок столбца Distance и выберите Визуализировать статистику.

Появятся диаграмма и панель Свойства диаграммы.
На панели Свойства диаграммы в разделе Статистика отображаются сводные статистические данные для поля Distance. Эта статистика показывает, что среднее смещение точек к округленным координатам составило 377 метров, минимальное — 19 метров, а максимальное — 685 метров.

В окне диаграммы отображается гистограмма значений расстояний, которую можно использовать для обоснования решений при создании обезличенного продукта с применением округления координат.

- Закройте панель Свойства диаграммы, диаграмму и таблицу атрибутов.
Подсчет точек с округленными координатами
Далее вы рассчитаете, сколько точек сложится после округления координат. В целях анализа конфиденциальности и деидентификации это можно интерпретировать как подсчет того, сколько случаев в ячейке может отражать идентичность любого отдельного случая. Чем больше случаев у вас в каждом стеке, тем больше пул и тем лучше для целей деидентификации. Вы будете анализировать точки географически, но также должны проверить уникальность всех атрибутов, которые вы сохранили в таблице для совместного использования, так как определенная комбинация атрибутов также может идентифицировать отдельного человека. По этой причине рекомендуется предоставить заинтересованным сторонам минимальный рабочий набор данных.
- На панели Содержание отключите слои High_Blood_Level_Results_Rounded и HBLL_dist.
- На панели Геообработка найдите и откройте инструмент Собрать события.
- Для Входных объектов событий выберите High_Blood_Level_Results_Rounded.
- Для Выходного класса взвешенных точечных объектов введите HBLL_rounded_counts.

- Щелкните Запустить.

При этом некоторые кластеры имеют до 15 точек, хотя многие имеют только одну или две. При большем наборе данных у вас может быть более плотное расположение точек.
Вы использовали округление координат, чтобы замаскировать расположение конфиденциальных данных точек, позволяя при этом сохранить несколько дополнительных атрибутов, связанных с точками. У исследователей неравенства в отношении здоровья теперь есть лучшая возможность провести дополнительный анализ и рассказать более полную историю об отравлении свинцом крови среди детей в Сакраменто, используя обезличенные данные. Чтобы документировать свой метод деидентификации, вы рассчитали статистику, связанную со смещением расстояния для каждой точки, и подсчитали пул точек в каждом стеке местоположений сетки. Помните, что также важно удалить атрибуты, которые могут привести к повторной идентификации (например, адрес, исходные координаты местоположения), еще рекомендуется минимизировать количество атрибутов в предоставленном вами наборе данных.
- Сохраните проект.
Обзор передовых подходов
Вы изучили несколько подходов к деидентификации данных для различных сценариев использования. В некоторых ситуациях вам может потребоваться применить более продвинутые методы. Вы узнаете о двух продвинутых методах деидентификации данных — геомаскирование и дифференциальная приватность.
В зависимости от решаемой задачи и регламентов в ГИС здравоохранения, вы можете углубиться в эту тему и провести собственное исследование следующих методов, чтобы вы могли применять их по мере необходимости.
ГеомаскированиеТермин геомаскирование относится к группе методов, которые изменяют географическое положение отдельных точек, но другим и более эффективным способом, чем округление координат. Есть два ключевых аспекта, необходимых для эффективного геомаскирования. Во-первых, искажение точки должно быть непредсказуемым, именно это защищает конфиденциальность данных. Во-вторых, точку следует перемещать таким образом, чтобы сохранить пространственные отношения внутри набора данных. В конце концов, ваша задача в ГИС заключается в поиске закономерностей. В последующих примечаниях вы познакомитесь с конкретным типом геомаскирования — кольцевым методом. Затем вы узнаете, как статистически оценить результат геомаскирования с помощью k-анонимности. Наконец, вам будет представлен инструмент, который автоматизирует весь процесс за вас.
Кольцевой метод геомаскированияОсновная идея кольцевого геомаскирования заключается в том, что она повышает конфиденциальность, гарантируя, что случайно перемещенная точка никогда не сможет оказаться в исходном положении. Это означает, что точку необходимо сместить на минимальное расстояние от исходного местоположения. В то же время, чтобы сохранить пространственные закономерности, для каждой точки также рассчитывается максимальное смещение. Эти два расстояния создают зону смещения в форме кольца, внутри которого можно перемещать исходную точку. Подробнее о кольцевом методе можно в этой статье.

Метод деидентификации Экспертное определение включает требование документировать процесс и обосновать, как этот процесс обеспечивает очень низкий риск повторной идентификации человека. При использовании метода геомаскирования статистика K-анонимности является оценочной мерой, подтверждающей это обоснование. Вы можете подробнее узнать о K-анонимности. Общая идея заключается в том, что K-анонимность представляет собой количество домохозяйств в вашем наборе данных, из которых невозможно отличить обезличенного субъекта. Например, если вы решили, что минимальное значение K равно пяти (записано как KMin=5), вы говорите, что существует как минимум пять домохозяйств (или отдельных лиц), которые потенциально могут представлять вашу исходную точку.
Ключевое решение для вашей организации — определить, какое минимальное значение K считается приемлемым для защиты конфиденциальности. Единого стандарта не существует; однако может быть полезно проанализировать политику различных государственных и федеральных агентств в отношении количества малых ячеек. Малые ячейки определяются как количество людей, соответствующих одной и той же комбинации признаков. Согласование с регламентами авторитетных государственных служб может помочь вашей организации с разработкой собственного стандарта. Также учтите, что одно стандартное значение K может не подойти для каждой ситуации.
Дифференциальная конфиденциальностьДифференциальная конфиденциальность — это новый метод, который, по мнению многих, лучше всего защищает персональные данные. Лучше всего он работает с большими наборами данных. Фактически, это метод, который Бюро переписи населения США использовало для предоставления данных, начиная с переписи 2020 года. При дифференциальной конфиденциальности данные в наборе данных математически изменяются (все данные) таким образом, что делает невозможным идентификацию любого человека, но при этом сохраняет полезность набора данных. Шум вводится в набор данных в соответствии с параметром эпсилон, который называется бюджетом потери конфиденциальности. Использование эпсилона означает, что риск раскрытия данных может быть определен количественно, что полезно для соблюдения организационных регламентов, а также для получения необходимой документации для экспертного заключения.
Один из вариантов объяснения, как работает дифференциальная конфиденциальность, — представить себе одну из тех мозаик изображений, где сотни обычных изображений собраны вместе таким образом, что они создают новое, более крупное изображение. Увеличивая масштаб до уровня отдельного изображения, вы можете заменить несколько изображений или переместить их в разные места, но при уменьшении масштаба общее изображение будет выглядеть практически одинаково. Большое изображение может быть не таким четким, как фотография, но качество улучшается по мере добавления отдельных изображений.
Нам еще многое предстоит узнать о дифференциальной конфиденциальности и ее значении для ГИС здравоохранения. Это тема, о которой вам следует знать, поскольку вы, возможно, уже используете данные переписи населения, которые были переданы с использованием этого метода, и потому что могут существовать инструменты, которые позволяют использовать этот метод в вашей собственной геопространственной работе.
Чтобы узнать больше о влиянии дифференцированной конфиденциальности на данные переписи населения США 2020 года, см. методологический отчет Esri за июнь 2022 года, а также это руководство по предотвращению раскрытия информации от Бюро переписи населения США.
В этом руководстве по деидентификации данных для визуализации и обмена представлен обзор HIPAA, закона США, направленного на защиту конфиденциальности личной медицинской информации. Вы изучили несколько методов, которые позволяют безопасно отображать и визуализировать информацию. Вы также изучили методы, которые помогут вам делиться данными, будь то в виде динамической веб-карты или в виде набора данных для других, кто может использовать ваши данные для исследований или других целей. Вы также узнали о некоторых продвинутых методах, которые можно использовать, когда вам нужны более мощные возможности для хранения данных на уровне точек.
Одно руководство не может охватить все ситуации. В этом уроке вы научились пространственно думать о проблеме и рассматривать преимущества и недостатки различных методов. Независимо от того, какие методы вы используете при работе с защищенной медицинской информацией, тщательно подумайте и сверьтесь с внутренними инструкциями вашей организации, чтобы оставаться согласованными и оставаться в безопасности.
Вы можете найти больше учебных пособий в галерее учебных пособий.


