Подготовка обучающих данных

Вы оцените глобальные местообитания морских водорослей с помощью подхода пространственной статистики, использующего набор местоположений, про которые известно о наличии там водорослей, и набор измерений для океана. На основе этих данных инструмент Прогнозирование только присутствия, который реализует технику машинного обучения, известную как максимальная энтропия (или Maxent), оценит вероятность наличия морских водорослей в других местах с учетом измерений океана. Для выполнения этого анализа вам необходимо очистить и подготовить данные. Сначала вы создадите точки, отражающие наличие морских водорослей в прибрежных водах США. Затем вы создадите поверхности интерполяции, представляющие измерения океана, которые будут служить предикторами для вашей модели.

Загрузка и изучение данных

В первую очередь вы загрузите данные о водорослях и изучите их.

  1. Скачайте пакет проекта Seagrass Habitat Prediction ArcGIS Pro.
  2. Дважды щелкните файл SeagrassPrediction.ppkx, чтобы открыть проект в ArcGIS Pro.

    Откроется глобальная карта. На панели Содержание находятся четыре класса объектов:

    • Global ocean measurements - Точечные данные экологических морских подразделений, которые содержат измерения океана на глубине до 90 метров.
    • USA seagrass - Полигональные данные о наличии водорослей. Каждый полигон в USA seagrass является идентифицированным местом обитания водорослей.
    • USA shallow waters - Мелководный батиметрический полигон для континентальной части США, используемый в качестве области исследования для обучения модели.
    • Global shallow waters - Глобальный мелководный батиметрический полигон, используемый для глобального прогнозирования водорослей.

    Слои данных находятся в системе координат проекции Equal Earth, которая подходит для глобального анализа.

  3. На панели Содержание снимите отметку со слоя Global ocean measurements.

    Отключите слой Global ocean measurements.

    Мелководные участки показаны светло-голубым цветом.

    Светло-голубые области представляют мелководные батиметрические зоны по всему миру, где глубина позволяет расти морским водорослям.

  4. На ленте щелкните вкладку Карта и, в разделе Навигация, щелкните Закладки и щелкните Florida.

    Карта приблизится к Флориде.

    Ярко-зеленые области - это местообитания морских водорослей. Вы будете использовать информацию об известных местообитаниях морских водорослей в континентальной части Соединенных Штатов, чтобы делать прогнозы о том, где еще в мире могут существовать местообитания морских водорослей. Поскольку это будет прогноз в глобальном масштабе, он не будет подходящим для определения местообитаний морских водорослей на небольших территориях, например, для определения мест в конкретном заливе, где произрастание водорослей наиболее вероятно. Позже вы узнаете, как перепрофилировать модель для других сценариев прогнозирования.

  5. На панели Содержание отметьте слой Global ocean measurements, чтобы снова включить его.

    Снова отображается слой измерений.

    Эти точки Global ocean measurements показывают средние значения данных в экологических морских единицах (EMU) за десятилетие и средние значения за 50 лет. Большинство точек данных лежат за пределами слоя наблюдений за водорослями. Чтобы разработать хорошую модель прогнозирования с помощью инструмента Прогнозирование только присутствия, вам нужно много точек в известных районах обитания водорослей с соответствующими данными измерений океана. Если вы используете только подвыборку точек EMU_Global_90m внутри полигона водорослей, у вас будет слишком мало наблюдений.

    Чтобы решить эту проблему, вы создадите набор случайных точек в пределах известных местообитаний водорослей для обучения модели. Вы также будете интерполировать поверхности из переменных Global ocean measurements и использовать случайные точки местообитаний морских водорослей для выборки значений интерполированных измерений. Global ocean measurement: temp (температура), соленость, dissO2 (растворенный кислород), нитраты, фосфаты, силикаты и srtm30 (глубина).

    Сначала вы сольете полигоны морских водорослей США в один составной объект и создадите набор из 5000 случайных точек в районах известного присутствия морских водорослей.

Создание обучающих точек

Далее вы создадите обучающие данные, которые потребуются инструменту Прогнозирование только присутствия для моделирования взаимосвязи между наличием водорослей и состоянием океана. Будет два типа обучающих данных: точки, представляющие известные места присутствия морских водорослей, и растры, представляющие семь переменных-предикторов (измерения океана). Вы создадите случайные точки в экстенте полигонов водорослей США. Поскольку вам нужно создать определенное количество случайных точек на площади, охватываемой этими местообитаниями водорослей, перед созданием точек вы сольете много полигонов в этом слое в один полигон.

  1. На ленте щелкните Анализ и, в разделе Геообработка, щелкните Инструменты.
  2. В окне поиска на панели Геообработка в поисковом окне введите pairwise dissolve.
  3. В окне поиска щелкните инструмент Попарное слияние по атрибуту, чтобы его открыть.

    Откройте инструмент Попарное слияние по атрибуту

  4. Для Входного объекта щелкните ниспадающий список и щелкните слой USA seagrass.
  5. Для Выходного класса объектов примите имя по умолчанию - USAseagrass_PairwiseDissolve.
  6. Примите значения по умолчанию для других параметров и убедитесь, что отмечено Создание составных объектов.

    Параметры инструмента Попарное слияние

  7. Щелкните Запустить.

    Когда инструмент завершит работу, новый векторный слой USAseagrass_Dissolve будет добавлен на карту и появится в списке на панели Содержание. Вы будете использовать эту версию слоя с водорослями, поэтому лучше удалить исходный слой, чтобы сохранить рабочее пространство в чистоте и избежать путаницы.

  8. Щелкните правой кнопкой мыши слой USA seagrass и щелкните Удалить.

    Удалите слой USA seagrass.

    Теперь вы сгенерируете случайные точки местоположения водорослей.

  9. На панели Геообработка щелкните стрелку назад и в поисковом окне введите create random points.
  10. В списке результатов щелкните инструмент Создать произвольно расположенные точки.

    Инструмент Создать произвольно расположенные точки (Create Random Points)

  11. Для Выходного класса объектов введите USA_Train.
  12. Для Ограничивающего класса пространственных объектов щелкните ниспадающий список и выберите USAseagrass_PairwiseDissolve.
  13. Для Числа точек [значение или поле] измените значение на 5000.

    Параметры инструмента Создать произвольно расположенные точки

  14. Щелкните Запустить.

    Произвольно расположенные точки добавятся на карту.

    Произвольно расположенные точки добавляются на карту.

    Теперь у вас есть новый класс пространственных объектов с 5 000 точек, которые попадают в известные местообитания морских водорослей на побережье США, которые вы будете использовать при обучении модели прогнозирования только присутствия. На данный момент нет переменных окружающей среды, связанных с этими местоположениями. Эта информация хранится в местоположениях точек Global ocean measurements. Чтобы решить эту проблему, вы создадите непрерывные поверхности интерполяции для переменных окружающей среды, отобранных в точках Global ocean measurements.

Интерполяция растров окружающей среды

Класс объектов Global ocean measurements содержит данные из набора данных Ecological Marine Units. Этот слой имеет атрибуты, которые вам нужны в качестве переменных прогнозирования при прогнозировании только присутствия. Некоторые из этих переменных включают в себя соленость, температуру океана и уровень нитратов. Вы будете использовать геостатистический метод эмпирического байесовского кригинга (ЭБК) для интерполяции растровых поверхностей для значений окружающей среды, хранящихся в слое Global ocean measurements. После этого вы выберете значения этих растров в точках USA_Train, чтобы модель прогнозирования только присутствия имела доступ к поясняющим данным в местоположении каждой обучающей точки.

  1. На панели Геообработка щелкните стрелку назад и в поисковом окне введите empirical bayesian kriging.

    Выполните поиск для инструмента Эмпирический байесовский кригинг.

  2. Щелкните правой кнопкой мыши инструмент Эмпирический Байесовский кригинг в результатах поиска и щелкните Пакетно.

    Откройте инструмент ЭБК в пакетном режиме.

    Появится страница Эмпирический байесовский кригинг (Пакетно).

  3. Для параметра Выбрать пакетный параметр щелкните ниспадающий список и выберите Поле значений Z.

    Выберите Поле значений Z.

  4. Оставьте все остальные параметры со значениями по умолчанию и щелкните Далее.
  5. Для Входных объектов щелкните ниспадающий список и щелкните Global ocean measurements.
  6. Для Пакетно Поле значений Z щелкните кнопку Добавить многие.

    Щелкните ниспадающий список и щелкните Добавить многие.

    Появится список полей.

  7. Поставьте отметки для следующих семи переменных: temp, salinity, dissO2, nitrate, phosphate, silicate, и srtm30, затем щелкните Добавить.

    Поставьте отметки для семи полей переменных среды.

    Когда вы щелкаете Добавить, поля добавляются на панель инструмента.

    Поля добавляются в инструмент.

  8. Измените Выходной растр на EBK_%Name%.

    Измените Выходной растр на EBK_%Name%.

    Это создаст растр с именем EBK_ плюс имя поля для каждого из полей.

  9. Для Размера выходной ячейки измените значение на 25000.
  10. Для Типа модели вариограммы щелкните ниспадающий список и выберите Линейный.

    Размер ячейки и тип модели вариограммы

  11. Разверните раздел Дополнительные параметры модели и установите Максимальное число точек в каждой локальной модели на 50.
  12. Установите Число моделируемых вариограмм на 50.

    Установите число точек и вариограмм на 50.

    Эти настройки помогают увеличить скорость прогнозирования ЭБК за счет ограничения количества точек в каждой модели и количества смоделированных вариограмм. Увеличение этих значений может повысить точность прогнозов, но также увеличит время работы инструмента. Чтобы лучше понять эти параметры, см. страницу справки Что такое эмпирический байесовский кригинг?.

  13. Разверните раздел Параметры поиска окрестности, установите Окрестность поиска на Обычная окружность и сократите Мин. соседей до 3.

    Задайте параметры поиска окрестности.

    Использование Обычной окружности для поиска сокращает время обработки инструмента. Ограничение минимального требования к соседям гарантирует, что значения в неизвестных местоположениях будут оцениваться, даже если соседей всего несколько. Дополнительные сведения об этих и других параметрах см. в документации по инструменту Эмпирический байесовский кригинг.

  14. Щелкните Запустить.

    Поскольку этот инструмент будет работать в пакетном режиме для создания семи отдельных глобальных растров интерполяции, его запуск займет некоторое время (примерно пять минут).

    Инструмент завершит работу с предупреждениями, указывающими, что значения NODATA были проигнорированы для некоторых объектов. Это не проблема.

    После завершения работы инструмента Пакетный эмпирический байесовский кригинг на карту добавляется каждая поверхность измерения океана. Они должны выглядеть примерно так, как показано ниже, где приведена модель ЭБК для концентрации нитратов.

    Слой EBK nitrate

  15. Щелкните Сохранить проект.

    Сохраните проект.

Вы подготовили данные для моделирования, сгенерировав случайные точки, представляющие местоположения водорослей в местообитаниях водорослей вокруг береговой линии США, и создав пояснительные растры с помощью эмпирического байесовского кригинга. Далее вы будете использовать обучающие данные для создания модели для прогнозирования наличия местообитаний морских водорослей по всему миру.


Прогнозирование среды обитания и уточнение результатов

Теперь, когда вы подготовили данные, вы будете использовать инструмент Прогнозирование только присутствия, чтобы создать модель и сделать прогноз. Прогнозирование только присутствия использует метод максимальной энтропии (MaxEnt), представляющий собой подход машинного обучения, который особенно хорошо подходит для моделирования распределения видов, поскольку он может обрабатывать сценарии, в которых данные об отсутствии недоступны.

Выполнение прогнозирования только присутствия

Вы будете использовать инструмент геообработки Прогнозирование только присутствия (MaxEnt) для обучения модели прогнозированию местообитаний морских водорослей и создания растра прогнозирования, показывающего вероятность местообитаний морских водорослей вдоль береговых линий мира. Вы оцените диагностику модели и повторите процесс моделирования, чтобы улучшить свою модель.

  1. На панели Геообработка щелкните стрелку назад и в поисковом окне введите presence.
  2. В результатах поиска щелкните Прогнозирование только присутствия (MaxEnt).

    Откройте инструмент Прогнозирование только присутствия.

  3. Для Входные точечные объекты щелкните ниспадающий список и выберите слой USA_Train.

    Для Входных точечных объектов установлено USA_Train.

  4. Для параметра Независимые обучающие растры щелкните кнопку Добавить многие.

    Нажмите на кнопку Добавить многие.

    Появится список растровых слоев.

  5. Поставьте отметки для следующих семи растров измерений океана: EBK_dissO2, EBK_nitrate, EBK_phosphate, EBK_salinity, EBK_silicate, EBK_srtm30, и EBK_temp, затем щелкните Добавить.

    Добавьте независимые растры.

    Когда вы щелкаете Добавить, растры добавляются на панель инструмента.

    Растры добавлены в инструмент.

    Все это растры непрерывных измерений, поэтому опции Категорийные не отмечены. Инструмент также будет принимать обучающие переменные, которые являются категорийными, для которых вам нужно будет поставить отметку.

  6. Для параметра Расширения независимой переменной (базисные функции) отметьте опции: Исходный (Линейный), В квадрате (Квадратический), Попарное взаимодействие (Продукт) и Сглаженный шаг (Петля).

    Отмеченные расширения независимой переменной, базисные функции

    Базовые функции преобразуют (или расширяют) независимые переменные, чтобы включить в модель более сложные взаимосвязи между наличием водорослей и интересующей переменной. Выбор нескольких базисных функций включает все преобразованные версии переменных в модель, из которой с помощью регуляризации выбираются наиболее эффективные переменные. В этом случае вы выбираете все, кроме опции Дискретный шаг, потому что Сглаженный шаг и Дискретный шаг относительно похожи, и выбор только одного из них сэкономит время обработки. Обратитесь к документации по инструменту для получения дополнительной информации о каждой базисной функции.

  7. Для Число узлов и Изучаемая область примите значения по умолчанию: 10 и Выпуклая оболочка.

    Примите значения по умолчанию для Число узлов и Изучаемая область.

    Число узлов — это параметр, относящийся к базисной функции Сглаженный шаг (Петля), который указывает количество равных интервалов между минимальным и максимальным значениями переменной, при этом создаются переменные, преобразованные с помощью как прямой, так и обратной петли. Параметр Выпуклая оболочка означает, что изучаемая область будет обозначена как выпуклая оболочка всех входных обучающих точек. Инструмент будет генерировать точки фона, представляющие потенциальное отсутствие водорослей, в областях изучаемой области, которые не содержат точек присутствия.

  8. Отметьте опцию Применить пространственное прореживание. Установите для Минимальное расстояние до ближайшего соседа значение 2, а в качестве единиц измерения выберите Километры. Убедитесь, что для Число итераций прореживания установлено значение 10.

    Раздел Пространственное прореживание

    Эти настройки помогают свести к минимуму потенциальное смещение выборки путем удаления точек присутствия и фона, находящихся в пределах заданного расстояния друг от друга, чтобы области не подвергались пространственной избыточной выборке. На расстояние между точками фона влияет пространственное разрешение независимых растров, поэтому использование в этом случае двухкилометрового расстояния предотвратит избыточную выборку областей фона по сравнению с областями присутствия морских водорослей. Использование нескольких итераций для прореживания позволяет инструменту сделать несколько попыток в процессе прореживания и выбрать вариант, который сохраняет наибольшее количество обучающих точек.

  9. Оставьте поле Выходной файл обученной модели пустым.

    Вы захотите сохранить файл модели, чтобы опубликовать свой анализ позже, но только после того, как убедитесь, что модель работает хорошо.

  10. Разверните раздел Дополнительные опции модели и убедитесь, что для Относительный вес присутствия к фону установлено значение 100, для Преобразование вероятности присутствия (функция связи) - C-log-log и Предельное значение вероятности присутствия - 0,5.

    Раздел Дополнительные опции модели

    Значение Относительный вес присутствия к фону, равное 100, указывает на то, что неизвестно, могут ли морские водоросли присутствовать в точках фона, сгенерированных инструментом.

    В этом сценарии уместно использовать значение C-log-log для Преобразования вероятности присутствия, потому что водоросли имеют минимальную неоднозначность с точки зрения местоположения (то есть водоросли не имеют мобильности или миграции, которые необходимо учитывать). Предельное значение вероятности присутствия, равное 0,5, указывает, что местоположения с вероятностью выше 0,5 классифицируются как присутствующие.

  11. Разверните раздел Выходные данные обучения и для Выходные обученные объекты введите trainfeatures1.

    Это будет выходной класс пространственных объектов, содержащий обученные объекты (в данном случае точки присутствия и точки фона), используемые для создания модели.

  12. Для Выходная таблица кривой ответов введите rc1.
  13. Для Выходная таблица чувствительности введите sensitivity1.

    Раздел Выходные данные обучения

    Выходная таблица кривой ответов и Выходная таблица чувствительности полезны для понимания производительности модели.

  14. Разверните раздел Опции прогнозирования и в поле Выходной растр прогнозирования введите seagrass_predict1.

    Раздел Опции прогнозирования

    Это будет выходной растр, который будет отображать прогнозы модели о вероятности присутствия водорослей.

  15. Убедитесь, что таблица Сопоставить независимые растры содержит совпадающие значения для растров Прогнозирование и Обучение.

    Раздел Сопоставить независимые растры

    Ранее вы назначили независимые растры для обучения модели на точках данных побережья США, а здесь вы используете те же растры для глобального прогноза. В некоторых случаях вы можете захотеть сделать прогноз, используя разные независимые растры. Например, вы можете использовать те же переменные измерения океана, но с прогнозируемыми значениями на 50 лет вперед, чтобы оценить, как изменение климата может повлиять на среду обитания и ареал морских водорослей.

  16. Оставьте отмеченной опцию Разрешить прогнозирование вне диапазонов данных.

    Поскольку для обучения модели вы используете только данные из прибрежных районов США, вам потребуется разрешить прогнозы за пределами диапазонов данных, чтобы делать прогнозы по всему миру.

    Примечание:

    Подобное прогнозирование за пределами диапазонов данных может привести к менее надежным прогнозам, особенно в регионах, где значения находятся далеко за пределами диапазонов обучающих данных.

    Имейте это в виду позже, когда будете смотреть на результаты прогнозов для таких мест, как Антарктида, где условия сильно отличаются от побережья США.

  17. Разверните раздел Опции проверки, для Схема пересчета щелкните ниспадающий список и выберите Произвольно, и для Число групп примите значение по умолчанию - 3.

    Раздел Опции проверки

    Эти параметры предписывают инструменту провести K-кратную перекрестную проверку модели.

    Инструмент почти готов к работе. Вы добавите настройку Параметров среды, чтобы ограничить область, которая обрабатывается перед ее запуском.

  18. В верхней части панели инструмента щелкните вкладку Параметры среды.

    Выберите вкладку Параметры среды.

  19. Прокрутите вниз и в разделе Анализ растра для параметра Маска щелкните ниспадающий список и выберите слой Global shallow waters.

    Выбор слоя Global shallow waters для маски.

    Поскольку водоросли растут на мелководье, это сэкономит время, если ограничить обработку областями мелководья.

  20. Щелкните Запустить.

    Для работы инструмента потребуется некоторое время (около двух минут).

  21. На панели Содержание снимите отметки, чтобы отключить все слои, кроме слоя seagrass_predict1 и базовой карты.

    Примечание:
    Вы можете нажать клавишу Ctrl и поставить отметку, чтобы включить или выключить несколько слоев одновременно. Другие сочетания клавиш быстрого доступа см. в документации.

    Слой seagrass_predict1 и базовая карта

    На карте показаны районы прогнозируемой среды обитания водорослей, обозначенные более темным фиолетовым цветом, представляющим районы с наибольшей вероятностью присутствия водорослей. Прогноз может быть не таким точным в определенных областях, таких как Антарктида, где независимые переменные находятся за пределами диапазона, который использовался для обучения.

Оценка прогноза

После выполнения прогноза вы оцените результаты и определите, нужно ли внести изменения в вашу модель прогноза. После просмотра диагностики модели и обновления прогноза вы сохраните файл модели, чтобы поделиться с другими, кто хочет воспроизвести или расширить ваш анализ.

Глядя на спрогнозированные области обитания водорослей, как узнать, действительна ли созданная вами модель и хорошо ли прогнозирует интересующая переменная?

Слой seagrass_predict1 и базовая карта

Во многих случаях это невозможно сказать, глядя только на результат прогноза. Чтобы оценить вашу модель, вам нужно будет просмотреть данные обучения и диагностику модели.

  1. На панели Содержание поставьте отметку, чтобы включить слой trainfeatures1.
  2. Нажмите правой кнопкой мыши на trainfeatures1 и щелкните Приблизить к слою.

    Приблизьтесь к слою trainfeatures1.

    Показан слой trainfeatures1.

    Серые и зеленые точки представляют собой обучающие точки фона, созданные инструментом для сбора данных о местах обитания водорослей.

    С этими точками данных есть большая проблема. Подавляющее большинство из них находится на суше, что не имеет смысла для модели, которая должна прогнозировать среду обитания морских водорослей. Это концептуальная проблема с моделью, которая подчеркивает важность наличия знаний в предметной области и понимания каждого из параметров инструмента для обеспечения правильной спецификации модели.

    Далее вы проверите диагностику модели, чтобы увидеть, как модель работает.

  3. В нижней части панели Геообработка щелкните Просмотреть подробности.

    Просмотр подробностей.

    Примечание:
    Вы также можете получить доступ к окну Детали, открыв панель История, щелкнув правой кнопкой мыши Прогнозирование только присутствия (MaxEnt) и выбрав Просмотреть подробности.

    Окно Детали предоставляет важную информацию о созданной вами модели и ее производительности. Оно также содержит любые предупреждения от запуска инструмента. В данном случае, предупреждения не являются проблемой для вашего анализа.

  4. Щелкните Сообщения, затем прокрутите вниз до таблицы Краткая информация модели.

    Таблица Краткая информация модели.

    В этой таблице показана частота пропусков модели при заданном предельном значении вероятности присутствия (в данном случае 0,5) и значении AUC. AUC — это площадь под кривой ROC (рабочая характеристика приемника), которая измеряет производительность модели путем сравнения количества истинных и ложных срабатываний. На лучшую производительность модели указывают более низкие показатели пропусков и значения AUC, приближающиеся к 1.

    Примечание:
    В ваших результатах могут быть небольшие различия в значениях Частоты пропусков и AUC из-за незначительных различий интерполяции EBK в зависимости от аппаратного обеспечения вашего компьютера.

    AUC модели (близкая к 1) очень высока, что обнадеживает, но частота пропусков (более 0,15) также немного высока. Вы также можете просмотреть другую информацию в окне Детали, чтобы лучше понять модель, включая коэффициенты регрессии и краткую информацию перекрестной проверки.

    Таблица Краткая информация перекрестной проверки и предупреждение

    Таблица Краткая информация перекрестной проверки показывает, что % присутствия — Правильно классифицировано находится в диапазоне от 82 до 86 процентов.

    Последними аспектами модели, которые вы оцените, являются кривая ответов и таблицы чувствительности.

  5. Закройте окно Детали.
  6. На панели Содержание прокрутите вниз до раздела Автономные таблицы и под таблицей rc1, в разделе Диаграммы, дважды щелкните диаграмму Частичный ответ непрерывных переменных.

    Дважды щелкните диаграмму Частичный ответ непрерывных переменных.

    Диаграмма Частичный ответ непрерывных переменных отображает влияние изменений значения каждой независимой переменной на вероятность присутствия при неизменности всех остальных переменных.

    Диаграмма Частичный ответ непрерывных переменных открыта.

  7. Щелкните диаграмму EBK_SALINITY.

    Диаграмма EBK_SALINITY показана в увеличенном виде справа.

    Щелкая на уменьшенные диаграммы, вы можете лучше рассмотреть их переменные на большой диаграмме справа. Диаграмма EBK_SALINITY показывает, что вероятность наличия мест обитания морских водорослей резко возрастает в узком диапазоне значений солености.

  8. Закройте диаграмму Частичный ответ непрерывных переменных.
  9. В разделе Автономные таблицы, под таблицей sensitivity1, в разделе Диаграммы, дважды щелкните диаграмму Частота пропусков и далее дважды щелкните диаграмму График ROC.
  10. Щелкните вкладки для областей диаграмм и перетащите их, чтобы упорядочить диаграммы, чтобы вы могли видеть их вместе.

    Диаграммы Частота пропусков и График ROC показаны вместе.

    Эти две диаграммы дают дополнительный контекст для частоты пропусков и диагностики AUC, которые вы рассматривали ранее.

  11. На диаграмме Частота пропусков щелкните и выберите прямоугольной рамкой точки рядом с пороговым значением 0,5.

    Выберите точки данных на диаграмме Частота пропусков.

    Пороговое значение 0,5 — это значение по умолчанию, которое вы использовали в модели.

    Вы можете исследовать, как изменение порога вероятности присутствия повлияет на классификацию точек фона, щелкая и выделяя точки для выбора на диаграмме Частоты пропусков.

    Снижение порогового значения увеличивает долю точек фона, классифицированных как потенциальное присутствие.

  12. Закройте диаграммы.

    Вы просмотрели результаты моделирования и изучили некоторые контекстные диагностические данные. Теперь вы настроите модель, чтобы решить концептуальную проблему наличия тренировочных точек на суше.

Перезапустить модель с лучшей изучаемой областью

При первом запуске модели был создан набор обученных точек классификации в экстенте выпуклой оболочки точек в векторном слое USA_Train. Хотя точки расположены на мелководье, большую часть площади между ними занимает суша. Теперь вы повторно запустите модель, но ограничите размещение обученных точек классификации областями, расположенными на мелководье.

  1. Щелкните вкладку Анализ и в разделе Геообработка щелкните История.

    Откроется история геообработки

  2. На панели История дважды щелкните верхний результат, Прогнозирование только присутствия (MaxEnt).

    Откройте инструмент Прогнозирование только присутствия (MaxEnt), запущенный из истории геообработки.

    Открытие инструмента таким образом открывает его со всеми ранее заполненными параметрами.

    Примечание:
    Повторное заполнение всех значений параметров на панели Геообработка может занять некоторое время.

    Вы измените только несколько параметров инструмента.

  3. В инструменте Прогнозирование только присутствия (MaxEnt) прокрутите вниз до параметра Изучаемая область, щелкните ниспадающий список и выберите Полигон изучаемой области.

    Опция выбора Полигона изучаемой области

    После завершения проверки инструмента появится новый параметр.

  4. Для Полигон изучаемой области, щелкните ниспадающий список и выберите USA shallow waters.

    Выберите слой USA shallow waters в качестве полигонального слоя изучаемой области.

    Это ограничит зону возможного присутствия и отсутствия местообитаний водорослей мелководными прибрежными районами вокруг континентальной части Соединенных Штатов.

  5. Для Выходной файл обученной модели, введите seagrass_model.

    Через несколько секунд путь в структуре папки вашего проекта будет заполнен, а расширение файла .ssm добавится к имени модели.

    Имя и путь файла обученной модели

    Вы будете работать с этим файлом модели в следующем разделе руководства.

    Примечание:
    Как правило, перед сохранением файла модели вы оцениваете новую модель, чтобы убедиться, что результаты соответствуют действительности, но вы сохраните выходной файл сейчас, чтобы сэкономить время.

  6. Разверните раздел Выходные данные обучения и обновите имена выходных данных на 2, чтобы указать, что это второй запуск.

    • Выходные обученные объекты: trainfeatures2
    • Выходная таблица кривой ответов: rc2
    • Выходная таблица чувствительности: sensitivity2

    Выходные данные обучения обновлены, чтобы показать, что модель запускается во второй раз.

  7. Разверните раздел Опции прогнозирования и обновите имя Выходного растра прогнозирования на 2, чтобы указать, что это второй запуск.

    • Выходной растр прогнозирования: seagrass_predict2

    Имя Выходного растра прогнозирования обновлено, чтобы показать, что модель запускается во второй раз.

  8. Щелкните Запустить.

    Для работы инструмента потребуется некоторое время (около двух минут).

    Когда инструмент завершит работу, слои будут добавлены на панель Содержание.

  9. На панели Содержание снимите отметки, чтобы отключить все слои, кроме слоя seagrass_predict2 и базовой карты.

    Второй набор результатов прогнозирования

  10. На панели Содержание поставьте отметку, чтобы включить слой trainfeatures2.
  11. Нажмите на слое trainfeatures2 правой кнопкой мыши и щелкните Приблизить к слою.

    Все обучающие объекты расположены в полигонах мелководья.

    Обучающие объекты (местоположения присутствия и фона) соответствующим образом расположены за пределами суши, в прибрежных районах.

  12. Щелкните Просмотреть подробности для инструмента Прогнозирование только присутствия (MaxEnt).

    Просмотр подробностей.

  13. Щелкните Сообщения, затем прокрутите вниз до таблицы Краткая информация модели.

    Отчет краткой информации второй модели

    Отметьте значения Частота пропусков и AUC. Обратите внимание, что AUC похожа на предыдущую модель, но частота пропусков намного ниже, что указывает на лучшую производительность модели.

    Таблица Краткая информация перекрестной проверки показывает, что % присутствия — Правильно классифицировано находится в диапазоне от 95 до 96 процентов.

    Таблица Краткая информация перекрестной проверки

    Вы также можете изучить диаграммы Чувствительности и Кривой ответов для этой новой модели и сравнить их с предыдущей моделью.

  14. Закройте окно Детали.

Сравнение прогнозов

Далее вы визуально сравните прогнозы двух моделей.

  1. На ленте щелкните вкладку Карта и, в разделе Навигация, щелкните Закладки и выберите Europe.
  2. На панели Содержание отключите видимость всех слоев, кроме seagrass_predict2, seagrass_predict1 и Light Gray Base.

    Два слоя прогноза морских водорослей включены на панели Содержание.

  3. На панели Содержание щелкните слой seagrass_predict2.

    Выберите слой seagrass_predict2.

    На ленте появится контекстная вкладка Растровый слой. Эта вкладка доступна, когда на панели Содержание выбран растровый слой.

  4. Щелкните на ленте вкладку Растровый слой.

    Щелкните меню Растровый слой.

  5. В группе Сравнить щелкните инструмент Спрятать.

    Щелкните инструмент Спрятать.

  6. На панели карты, щелкните и перетащите инструмент Спрятать вниз по карте.

    Щелкните и перетащите по карте инструмент Спрятать.

    Инструмент Спрятать показывает слой под выбранным слоем.

    Инструмент Спрятать интерактивно скрывает выбранный слой и показывает слой под ним. Вы можете использовать этот инструмент для изучения различий между вашими первым и вторым прогнозами.

    Обратите внимание на различия вокруг Балтийского моря. В первоначальной модели прогнозируемая вероятность присутствия водорослей в Балтийском море была очень низкой, особенно, например, вокруг Копенгагена, Дания. Прогнозируемая вероятность увеличилась в этой области во второй модели. Области с морскими водорослями являются важными углеродными точками в Балтийском море, особенно в некоторых защищенных бухтах вокруг Дании, поэтому это помогает повысить уверенность в производительности новой модели.

    Обычно вы продолжаете изучать прогнозы модели и сравнивать их с другими известными местоположениями морских водорослей за пределами прибрежных вод США, но для целей этого руководства вы готовы перейти к публикации модели.

Вы спрогнозировали распространение водорослей в прибрежных районах по всему миру с помощью метода максимальной энтропии (MaxEnt), итеративно работая с инструментом Прогнозирование только присутствия, чтобы скорректировать параметры и убедиться, что ваша модель была задана надлежащим образом. Далее вы задокументируете модель и опубликуете её.


Публикация модели

Теперь, когда прогноз завершен и результаты оценены, следующим шагом будет сделать само моделирование более прозрачным и воспроизводимым. При втором запуске инструмента Прогноз только присутствия вы создали файл модели пространственной статистики (.ssm).

Вы добавите описания переменных и единицы измерения в этот файл, чтобы модель была полностью задокументирована и готова к публикации. Независимо от того, планируете ли вы публиковать файл модели, сохранение задокументированного файла модели в ваших записях позволит вам вернуться к предыдущему анализу и понять ожидаемые входные переменные и их единицы измерения, а также просмотреть, как работает модель. Вы также можете поделиться моделью с другими, например с коллегами, которые хотят воспроизвести ваш анализ в своем регионе или развить вашу работу, проанализировав локальную область с данными с более высоким разрешением.

Документирование файла модели

Чтобы задокументировать файл модели, выполните следующие шаги:

  1. На панели Геообработка щелкните стрелку назад и в поисковом окне введите describe spatial, затем в результатах щелкните Описать файл модели пространственной статистики.

    Найдите и откройте инструмент Описать файл модели пространственной статистики.

  2. Для Входного файла модели щелкните кнопку обзора и разверните папки Project, Folders, SeagrassPrediction и p30.
  3. Щелкните файл seagrass_model.ssm и щелкните OK.

    Перейдите к файлу seagrass_model.ssm и откройте его.

    Появится информационное сообщение, предоставляющее основную информацию о модели, включая тип модели и прогнозируемую переменную.

    Информация о модели

  4. Щелкните Запустить.
  5. Когда инструмент завершит работу, щелкните Просмотреть подробную информацию.

    Просмотрите сведения о запуске инструмента.

  6. Разверните окно Детали и просмотрите его содержание.

    Детали параметров модели

    Предоставляется много подробностей о модели, включая дату создания модели, тип модели, предикторы и ответ, а также характеристики модели и диагностику, включая AUC и Частоту пропусков.

    Важно отметить, что входные местоположения и значения не раскрываются в файле модели, поэтому вы можете поделиться моделью, даже если входные данные являются конфиденциальными, например места гнездования исчезающих видов птиц.

    Нет информации для полей Description и Unit для переменной для прогнозирования и независимых обучающих растров. Без понимания того, что представляет каждая переменная и ее единицы измерения, другой пользователь не сможет использовать этот файл модели. Представьте, если бы пользователь предположил, что для этой модели температура измеряется в градусах Фаренгейта, тогда как на самом деле она измеряется в градусах Цельсия, его прогнозы были бы неверными.

    Далее вы заполните эту недостающую информацию.

  7. Закройте окно Детали.
  8. На панели Геообработка щелкните стрелку назад и в поисковом окне введите set spatial statistics, а затем в результатах щелкните Установить свойства файла модели пространственной статистики.

    Откройте инструмент Установить свойства файла модели пространственной статистики.

  9. Для Входного файла модели щелкните кнопку обзора и щелкните файл seagrass_model.ssm, затем щелкните OK.

    Перечислены имена переменных и растров, используемые в модели. Поля Description и Unit позволяют добавлять информацию в документацию модели.

    Перейдите к файлу модели.

  10. В разделе Переменная для прогнозирования под Presence-Only для Description введите Seagrass habitat presence.

    Описание для переменной

  11. В разделе Переменная для прогнозирования под Presence-Only для Unit введите None.

    Unit заданы как None для Presence-Only.

  12. В разделе Независимые обучающие растры заполните каждую переменную Description и Unit следующим образом:
    • Для: EBK_DISSO2, Description: Dissolved oxygen, Unit: ml/l
    • Для: EBK_NITRATE, Description: Nitrates, Unit: μmol/l
    • Для: EBK_PHOSPHATE, Description: Phosphates, Unit: μmol/l
    • Для: EBK_SALINITY, Description: Salinity, Unit: None
    • Для: EBK_SILICATE, Description: Silicates, Unit: μmol/l
    • Для: EBK_SRTM30, Description: Depth, Unit: Meters
    • Для: EBK_TEMP, Description: Temperature, Unit: °C

    Описательная информация для Независимых обучающих растров

  13. Вернитесь к верхней части инструмента и щелкните в окне Входной файл модели.

    Это должно инициировать проверку введенных вами переменных. Иногда эти значения теряются, если проверка инструмента не запускается перед запуском инструмента.

  14. Щелкните Запустить.
  15. Щелкните Просмотреть подробности.

    Просмотрите подробности в инструменте Установить свойства файла модели пространственной статистики.

    Инструмент сообщает, что поля были обновлены.

    Поля Descriptions и Units обновлены.

  16. Закройте окно Детали.
  17. В Истории геообработки дважды щелкните инструмент Описать файл модели пространственной статистики.
  18. Щелкните Запустить и щелкните Просмотреть детали.

    Детали обновляются.

    Вы убедились, что описания переменных и единицы измерения теперь правильно задокументированы, а файл модели готов к отправке по электронной почте, на общий диск или в Интернете. Вы можете сохранить этот файл модели для выполнения другого прогноза в будущем или поделиться им с другими пользователями, которые могут захотеть выполнить дополнительные прогнозы. Например, в этом прогнозе использовались средние данные экологических морских единиц (EMU) за десятилетие (среднее значение за 50 лет), но другой исследователь может захотеть сделать прогноз, используя прогнозируемые измерения океана, чтобы понять, как распределение водорослей может измениться в условиях потепления океана.

  19. Закройте окно Детали.

В этом руководстве вы подготовили обучающие данные и создали модель машинного обучения для прогнозирования местообитаний морских водорослей в прибрежных регионах по всему миру. Вы также сделали свой анализ воспроизводимым и расширяемым, задокументировав файл модели, чтобы поделиться с другими, которые хотят воспроизвести или развить вашу работу. Содействие открытой науке является важной частью усилий по сохранению природы, в том числе водорослей и экосистем, которые они поддерживают. В этом учебном пособии использовался упрощенный подход к моделированию морских водорослей, и в некоторых случаях настройки параметров инструмента были оптимизированы для ускорения обработки. Следующие ресурсы предоставляют дополнительную информацию о реальных усилиях по моделированию местообитаний морских водорослей:

  • Aydin, Orhun, Carlos Osorio-Murillo, Kevin A. Butler и Dawn Wright. 2022. "Conservation Planning Implications of Modeling Seagrass Habitats with Sparse Absence Data: A Balanced Random Forest Approach." Journal of Coastal Conservation 26 (3): 22. https://doi.org/10.1007/s11852-022-00868-1.
  • Bertelli, Chiara M., Holly J. Stokes, James C. Bull и Richard K. F. Unsworth. 2022. "The Use of Habitat Suitability Modelling for Seagrass: A Review." Frontiers in Marine Science 9. https://www.frontiersin.org/articles/10.3389/fmars.2022.997831.
  • McKenzie, Len J., Lina M. Nordlund, Benjamin L. Jones, Leanne C. Cullen-Unsworth, Chris Roelfsema и Richard K. F. Unsworth. 2020. "The Global Distribution of Seagrass Meadows." Environmental Research Letters 15 (7): 074041. https://doi.org/10.1088/1748-9326/ab7d06.
  • Wang, Ming, Yong Wang, Guangliang Liu, Yuhu Chen и Naijing Yu. 2022. "Potential Distribution of Seagrass Meadows Based on the MaxEnt Model in Chinese Coastal Waters." Journal of Ocean University of China 21 (5): 1351–61. https://doi.org/10.1007/s11802-022-5006-2.