Использование методов классификации на основе леса
Один из методов моделирования распределения видов использует распространенный алгоритм машинного обучения, произвольный лес. В инструменте Классификация на основе леса, расширенная классификация с бустингом и регрессия в ArcGIS Pro можно использовать один из двух алгоритмов: адаптацию алгоритма произвольного леса или алгоритм экстремального градиентного бустинга (XGBoost). В этом модуле вы будете использовать алгоритм на основе леса, который обучает модель на основе известных значений, предоставленных как часть обучающего набора данных, а затем может быть использован для прогнозирования неизвестных значений. Вы запустите инструмент дважды: сначала для обучения предварительной модели и оценки ее точности, затем для улучшения модели и создания слоя растрового прогнозирования.
Настройка проекта
Сначала вы загрузите данные, необходимые для моделирования распространения видов. Они были опубликованы в виде пакета проекта, который вы можете скачать и открыть в ArcGIS Pro. Данные уже были извлечены, вырезаны и спроецированы (обработка описана ниже). Чтобы узнать больше о том, как подготовить свои собственные данные для моделирования распределения видов, ознакомьтесь с руководством Подготовка данных для моделирования распределения видов.
- Загрузите учебные данные.
- Дважды щелкните пакет проекта Hurricane_Elsa, чтобы открыть ArcGIS Pro. Если будет предложено, в войдите под лицензированной учетной записью ArcGIS.
Этот проект содержит данные, которые вам понадобятся для моделирования распространения видов.
- Точки наблюдения за дикими свиньями (Sus scrofa) взяты из наблюдений iNaturalist. Слой Sus_scrofa_California содержит только эти точки наблюдения. Слой Sus_scrofa_California_absence_presence также содержит точки псевдоотсутствия, или точки, в которых дикие свиньи не наблюдались, что является обязательным требованием для моделирования регрессии на основе леса.
- Данные о биоклимате, представляющие 19 переменных окружающей среды, относящихся к температуре и количеству осадков, извлекаются из слоя Bioclimate Baseline 1970-2000. Он был спроецирован в NAD 1983 California (Teale) Albers (Meters) и вырезан по штату Калифорния. Вырезанные слои немного выходят за пределы границ штатов, чтобы обеспечить возможность извлечения экологических данных для наблюдения или для точек псевдоотсутствия на границах или вблизи них.
- Данные высот и уклонов получены из USGS EROS Archive - Digital Elevation - Global Multi-resolution Terrain Elevation Data 2010, спроецированы в NAD 1983 California (Teale) Albers (Meters) и вырезаны по штату Калифорния
- Растительный покров был получен из USA NLCD Land Cover, спроецирован в NAD 1983 California (Teale) Albers (Meters) и вырезан по штату Калифорния.
Обучение модели Классификация на основе леса, расширенная классификация с бустингом и регрессия
Инструмент Классификация на основе леса, расширенная классификация с бустингом и регрессия обучает модель на основании известных значений, предоставленных как часть обучающего набора данных, которые затем могут использоваться для предсказания неизвестных значений. Инструмент может быть запущен в трех режимах: только обучение, прогнозирование по объектам и прогнозирование по растру. В этом разделе вы будете использовать режим обучения для создания предварительной модели. При запуске инструмент создает серию диаграмм и других выходных данных, которые позволяют оценить точность модели и принять решение о ее улучшении.
- На панели Геообработка найдите и откройте инструмент Классификация на основе леса, расширенная классификация с бустингом и регрессия.
Вы запустите инструмент дважды: в первый раз для анализа входных данных и во второй раз для настройки входных данных для улучшения модели. Используйте эту опцию для оценки точности модели перед созданием прогнозов. Эта опция создаст выходную диагностику модели в окне сообщений и диаграмму значимости переменных.
- Для Типа прогнозирования выберите Только обучение и убедитесь, что для Тип модели выбрано На основе леса.
Модели на основе леса опираются на несколько деревьев принятия решений, созданных на основе обучающих данных. Дерево решений - это схема, подобная блок-схеме, которая использует известные характеристики результата и определяет, насколько вероятно, что неизвестная точка данных будет соответствовать ему на основе серии решений. Каждое дерево решений строит собственный прогноз и становится предложением для итогового результата. Алгоритм модели рассматривает предложения от всех деревьев решений, чтобы спрогнозировать или классифицировать результат неизвестной выборки. Другой вариант - это модель с градиентным бустингом, который строит модель, где каждое дерево решений создается последовательно с использованием исходных данных. Каждое дерево исправляет ошибки предыдущих деревьев.
- Для Входных обучающих объектов выберите Sus_scrofa_California_absence_presence. Для Переменная для прогнозирования, выберите поле Presence и установите отметку Рассматривать переменную как категориальную.
Для этого анализа требуются как точки присутствия, так и точки отсутствия. В поле Presence, места, где были замечены дикие свиньи, отмечены цифрой 1. Все остальные точки отмечены цифрой 0. Поскольку достоверное отсутствие видов трудно однозначно доказать, этот слой содержит точки псевдоотсутствия или набор случайно выбранных точек, представляющих места, где дикие свиньи не наблюдались.
- Установите отметку Включить все вероятности прогнозирования.
Этот параметр генерирует выходные данные, которые показывают вероятность всех категорий в категориальной переменной. В этом случае он покажет вероятность как отсутствия, так и присутствия в данном месте.
Затем вы добавите независимые данные. Независимые переменные могут быть получены из полей, быть вычислены по объектам расстояния или извлечены из растров. Вы можете использовать любую комбинацию этих типов независимых переменных, но выбранный тип входных данных влияет на доступные выходные данные. Поскольку вы хотите, чтобы конечным результатом была растровая поверхность, показывающая прогноз присутствия, вы будете использовать опцию Независимые обучающие растры.
- Для Независимые обучающие растры щелкните Добавить многие. Установите отметки, чтобы добавить все 19 переменных Bioclimate, CA_Elevation, CA_Slope и CA_NCLD и щелкните Добавить.
- Рядом с переменной CA_NLCD установите отметку Категориальный.
Параметры для модели заданы. Теперь вы создадите выходные данные, полученные в режиме обучения, которые помогут вам оценить и усовершенствовать модель прогнозирования.
- Разверните раздел Дополнительные выходные данные. Для Выходные обученные объекты введите fbbcr_output_trained.
Этот вывод проверит точность прогноза, показав, сколько входных данных было правильно и неправильно классифицировано.
- Для Выходной таблицы значимости переменных введите fbbcr_variable_importance.
Значение Выходная таблица значимости переменных содержит независимые переменные, используемые в модели, и их важность. Это поможет вам оценить, какие из множества переменных, которые вы используете при первоначальном запуске модели, наиболее важны для прогнозирования присутствия диких свиней. Он также создает диаграмму, показывающую распределение важности переменной по запускам.
- Для Выходная таблица эффективности классификации (Матрица несоответствий) введите fbbcr_class_performance.
Эти выходные данные доступны только в том случае, если зависимая переменная является категориальной и часть входных данных используется для проверки. В таблице результатов показано количество истинно положительных (TP), истинно отрицательных (TN), ложноположительных (FP) и ложноотрицательных (FN) результатов в каждой категории на основе данных проверки.
- Разверните группу Дополнительные опции модели.
Параметры в этой группе, известные как гиперпараметры, позволяют управлять количеством деревьев решений и характеристиками деревьев, используемых при моделировании. Например, увеличение числа деревьев в модели леса или модели с бустингом приведет к более точному прогнозированию модели, но модель будет дольше вычисляться. Меньшие значения параметра Минимальный размер листа могут сделать вашу модель подверженной шуму, имеющемуся в данных. Чтобы лучше понять, какие из этих параметров вам, возможно, потребуется настроить, сначала запустите модель с параметрами по умолчанию. Использование опции Оптимизировать параметры поможет вам выполнить эти настройки.
- Установите отметку Оптимизировать параметры.
Существует несколько методов оптимизации, из которых вы можете выбирать. Чтобы сократить время обработки, вы будете использовать метод по умолчанию Случайный поиск (быстрый) и оптимизировать его для повышения точности модели. Есть несколько других опций, которые вы можете выбрать для Оптимизировать цель (Задача), которые направлены на оптимизацию различных показателей производительности модели.
- Для параметра Число запусков для набора параметров введите 10.
Для каждой точки поиска метод Случайный поиск (грубый) строит модель, используя 10 различных случайных начальных значений, выбирает набор значений гиперпараметров с медианной производительностью модели, затем переходит к следующей точке поиска. Инструмент выполняет поиск по всем возможным точкам поиска, а затем выбирает набор значений гиперпараметров с наилучшей производительностью модели.
- В Настройки параметров модели добавьте следующие гиперпараметры:
- Параметр: Число деревьев
- Нижняя граница: 100
- Верхняя граница: 500
- Интервал: 10
Примечание:
При вводе гиперпараметров вы можете увидеть индикатор ошибки Ошибка 110535. Ошибка будет устранена, когда вы закончите вводить гиперпараметры и критерии тестирования.
- Разверните раздел Опции проверки. Для Число запусков для проверки задайте значение 25.
Чем больше запусков вы разрешите инструменту, тем больше у вас будет уверенности в этой модели. При каждом запуске проверки, для тестирования модели потребуется разные 10 процентов данных. Диагностика инструмента позволит сравнить оценку точности учебных запусков с запуском проверки. Вы также сможете лучше понять важность каждой переменной для общего прогноза.
- Для параметра Выходная таблица проверок введите fbbcr_out_validation.
К этой таблице прилагается диаграмма, показывающая распределение показателей точности. Диаграмма помогает оценить, насколько стабильна модель и нуждается ли она в улучшении.
- Щелкните Запустить.
После завершения работы инструмента на карту добавляется слой fbbcr_output_trained.
Созданные вами выходные таблицы будут добавлены на панель Содержание в раздел Автономные таблицы.
Примечание:
Модель на основе леса по умолчанию при каждом запуске использует разные случайные выборки обучающих данных, поэтому, если вы запустите инструмент несколько раз, вы можете получить разные результаты.
Интерпретация результатов и улучшение модели произвольного леса
Теперь, когда вы запустили инструмент один раз, вы сможете использовать диагностику, диаграммы и результаты обучения, чтобы оценить, насколько хорошо модель может предсказывать присутствие диких свиней. Есть две области, которые вы должны оценить, чтобы решить, какие параметры следует улучшить: производительность модели и актуальность независимых данных. Инструментальная диагностика предоставляет ряд статистических данных, таких как Ошибки модели, не вошедшие в набор, и Диагностика классификации, которые помогают вам оценить, следует ли обновлять параметры или гиперпараметры. Таблица Значимость самой верхней переменной также содержит информацию о независимых переменных, оказывающих наибольшее влияние на прогнозирование, что позволяет удалить лишние данные.
При обучении модели рекомендуется запускать ее несколько раз, тестируя различные параметры для улучшения. Это учебное пособие ограничено двумя запусками инструмента для экономии времени. Для получения дополнительного анализа результатов обратитесь к статье документации Как работает Классификация на основе леса, расширенная классификация с бустингом и регрессия.
Примечание:
Ваши результаты могут отличаться от результатов всех примеров, приведенных в этом разделе. Это изменение связано со случайной выборкой, выполняемой инструментом.
- После завершения работы инструмента Классификация на основе леса, расширенная классификация с бустингом и регрессия в нижней части панели Геообработка щелкните Просмотреть сведения.
Примечание:
Если вы закрыли панель Геообработка, вы также можете получить доступ к Подробной информации из Журнала геообработки. Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните История. На панели История щелкните инструмент Классификация на основе леса, расширенная классификация с бустингом и регрессия и выберите Просмотреть сведения.
Подробные сведения об инструменте содержат как запись используемых параметров, так и сообщения, которые помогут вам интерпретировать результаты.
- Если необходимо, в окне Подробной информации щелкните вкладку Сообщения.
В первой таблице приведены Характеристики модели, или гиперпараметры, используемые для задания модели на основе леса. Поскольку вы разрешили оптимизацию параметров, модель, скорее всего, была запущена с большим количеством деревьев, чем 100 по умолчанию. Точное количество, которое использовала ваша модель, будет варьироваться в зависимости от количества взятых случайных выборок.
Примечание:
Предупреждения для инструмента показывают, что были проблемы с чтением некоторых входных объектов. Из-за разрешения и экстента входных растров, которые были вырезаны по штату Калифорния, чтобы сократить время обработки и размер файла, информацию о некоторых точках наблюдения вблизи побережья не удалось извлечь из растров.
- Прокрутите вниз до таблицы Ошибки модели, не вошедшие в набор.
Ошибки модели, не вошедшие в набор (OOB) помогают вам оценить точность модели. MSE (среднеквадратичная ошибка) основана на способности модели точно прогнозировать значение Переменной для прогнозирования. Эти ошибки рассчитываются для половины числа используемых деревьев и общего количества используемых деревьев. Если описанные ошибки и процент вариаций одинаковы для обоих типов деревьев, вам, скорее всего, не нужно увеличивать количество используемых деревьев. Поскольку прогнозируемая переменная является категориальной, ошибки OOB вычисляются на основе процента некорректных классификаций для каждой категории среди деревьев, которые не видят поднабор деревьев в лесу.
- Обратите внимание на наиболее важные переменные в таблице Значимость самой верхней переменной.
Поскольку вы использовали так много независимых переменных, важность каждой из них будет относительно низкой, но таблица по-прежнему является полезным способом увидеть, какие переменные могут оказать наибольшее влияние на присутствие диких свиней. Вы будете использовать результаты этой таблицы, а также таблицу Сводка значимости переменных, созданную с помощью выходных данных fbbcr_variable_importance, чтобы сократить количество переменных, которые вы будете использовать при следующем запуске инструмента.
- Сравните баллы в таблице Обучающие данные: диагностика классификации в таблице Данные проверки: диагностика классификации.
Таблица Обучающие данные: диагностика классификации сообщает, насколько хорошо модель работала с обучающими данными, а таблица проверки сообщает о том, насколько хорошо модель работала с данными, которых она не знала. Если модель хорошо справляется с обучающими данными, но очень плохо с проверкой, это указывает на возможную чрезмерную подгонку модели. Как правило, чем ближе F1-Score и MCC к 1, тем лучше модель.
- В таблице Данные проверки: диагностика классификации сравните значения Чувствительность и Точность.
Статистические данные, приведенные в этой таблице, являются показателями эффективности модели. Чувствительность - это процент случаев, когда объекты с наблюдаемой категорией были правильно предсказаны для этой категории, а точность - это количество раз, когда категория была правильно определена из общего числа наблюдений для этой категории. Оба этих значения близки к 1, что означает, что модель точно классифицировала большинство точек во время выполнения проверки. Вы можете просмотреть информацию о чувствительности в графическом формате, открыв диаграмму Эффективность проверки, созданную с помощью таблицы fbbcr_class_performance.
- Закройте окно Подробной информации. На панели Содержание, под слоем fbbcr_output_trained, щелкните правой кнопкой диаграмму Эффективность прогноза и выберите Открыть.
Откроется диаграмма Эффективность прогноза. Каждый столбец представляет прогнозируемую категорию, а цвет дополнительных столбцов отражает фактическую категорию. Эта диаграмма может быть использована для того, чтобы показать, как часто модель правильно предсказывала интересующую переменную и какие моменты вызывали у нее проблемы. Поскольку вы запускали модель с включенным параметром Включить все вероятности прогнозирования, каждая точка в этом слое также включает вероятность отсутствия или присутствия диких свиней.
В то время как эта диаграмма показывает, насколько хорошо модель работает с входными обучающими объектами, диаграмма Точность проверки, созданная с помощью таблицы fbbcr_out_validation, показывает, насколько хорошо модель работает с данными проверки.
- На диаграмме Эффективность прогноза в столбце 0 щелкните меньший вспомогательный столбец, показывающий точки, которые указывают Присутствие, но были ошибочно классифицированы как точки Отсутствия.
На карте выделены точки, которые были ошибочно классифицированы как точки отсутствия. Они разбросаны по всему штату.
- Щелкните на карте по одной из неправильно классифицированных точек. Во всплывающем окне прокрутите вниз до атрибутов Вероятности.
В показанной выбранной точке, исходя из характеристик окружающей среды, вероятность отсутствия составляет 57 процентов, а вероятность присутствия - 42 процента.
- На панели Содержание в разделе Автономные таблицы для таблицы fbbcr_variable_importance дважды щелкните диаграмму Распределение значимости переменных.
Поскольку вы запускали модель для проверки 25 раз, каждый раз на основе другого поднабора входных данных, важность переменных незначительно отличается. Несмотря на различия в важности переменных, первые 12 из них имеют довольно высокую значимость: BIO15_Precipitation_Seasonality, BIO11_Mean_Temperature_of_Coldest_Quarter, CA_Elevation, BIO3_Isothermality, CA_NLCD, BIO18_Precipitation_of_Warmest_Quarter, BIO6_Min_Temperature_of_Coldest_Month, BIO8_Mean_Temperature_of_Wettest_Quarter, CA_Slope, BIO1_Annual_Mean_Temperature, BIO14_Precipitation_of_Driest_Month и BIO12_Annual_Precipitation.
Вы повторно запустите инструмент, сосредоточившись на этих 12 независимых переменных. Удаление менее важных переменных поможет снизить вероятность чрезмерной подгонки модели.
- На панели Геообработка в инструменте Классификация на основе леса, расширенная классификация с бустингом и регрессия измените Тип прогноза на Прогнозировать в растр.
- В разделе Независимые обучающие растры удалите все растры, кроме Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD и CA_Slope.
- Для Выходная поверхность прогноза введите fbbcr_feral_swine_prediction.
- Для всех выходных данных, которые вы создали в категориях Дополнительные выходные данные, Дополнительные опции модели и Опции проверки, добавьте суффикс _top12 в конец имени выходных данных.
Это позволит заново создать все выходные данные для поверхности прогнозирования, что позволит сравнить две модели, чтобы убедиться в улучшении прогнозирования.
- Щелкните Запустить.
- На панели Содержание снимите отметку у слоя fbbcr_output_trained, чтобы отключить его. Закройте все таблицы и диаграммы, которые вы открывали при оценке первого запуска модели.
- Используйте то, что вы узнали о диагностике модели и выходных таблицах, чтобы оценить новую модель.
Общая статистика, оценивающая эту модель, включая MSE, F-1 score и MCC, должна была улучшиться. В отличие от первой модели, этот запуск, как правило, неверно предсказывал скорее присутствие, чем отсутствие. В случае с дикими свиньями это, вероятно, выгодно, поскольку популяции свиней легко приспосабливаются и могут выживать в самых разных условиях.
- На панели Содержание снимите отметку со слоя fbbcr_output_trained_top12, чтобы выключить его.
Слой bbc_feral_swine_prediction - это растр, показывающий, где в штате вероятнее всего встречаются свиньи, исходя из характеристик окружающей среды.
В этом разделе вы дважды запускали инструмент Классификация на основе леса, расширенная классификация с бустингом и регрессия, чтобы обучить предварительную модель и оценить ее точность перед созданием растрового слоя прогноза. Реально, этот процесс может занять более двух итераций для достижения желаемых результатов. Далее вы будете использовать алгоритм максимальной энтропии для выполнения аналогичного моделирования и сравнения результатов.
Использование методов MaxEnt
Другим доступным методом моделирования распределения видов в ArcGIS Pro является Прогнозирование только присутствия (MaxEnt), который использует алгоритм максимальной энтропии для моделирования присутствия явления с учетом известных местоположений присутствия и независимых переменных. Как и в случае с моделью на основе лес, прогнозирование только присутствия может быть выполнено несколько раз для оценки и улучшения модели, а также для создания поверхности прогнозирования присутствия видов. В отличие от модели на основе леса, вам не нужен набор данных, содержащий как точки присутствия, так и точки отсутствия (или, во многих случаях, точки присутствия и псевдоотсутствия), поэтому растровая поверхность показывает вероятность того, что вид может быть обнаружен в данной местности, а не бинарную классификацию присутствия или отсутствия.
Обучение модели Прогнозирование только присутствия
В этом разделе вы будете использовать инструмент Прогнозирование только присутствия в обучающем режиме для создания предварительной модели. Поскольку вы определили наиболее важные независимые переменные, используя классификацию на основе леса, вы также будете использовать их в качестве независимых переменных в этом инструменте.
- На панели Геообработка найдите и откройте инструмент Прогнозирование только присутствия (MaxEnt).
В отличие от многих методов регрессии, включая инструмент Классификация на основе леса, расширенная классификация с бустингом и регрессия, для инструмента Прогнозирование только присутствия не требуются фоновые точки или точки псевдоотсутствия. И, как и в случае с инструментом Произвольный лес, определенные типы входных объектов будут создавать разные выходные данные. В этом случае, поскольку вы хотите создать другую растровую поверхность, вам нужно будет использовать только точки наблюдения.
- Для Входные точечные объекты щелкните слой Sus_scrofa_CA.
- Для Независимые обучающие растры щелкните Добавить многие. Установите отметки, чтобы добавить те же переменные, что и при последнем запуске инструмента Произвольный лес: Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD и CA_Slope. Щёлкните Добавить.
Хотя вы можете запустить этот инструмент со всеми 19 переменными биоклимата, рекомендуется использовать такие инструменты, как Произвольный лес, чтобы понять важность переменных для модели. При построении моделей важно найти баланс между упрощением моделей, чтобы уменьшить их переобучение, и созданием достаточно надежных моделей для точного прогнозирования.
- Рядом с переменной CA_NLCD установите отметку Категориальный.
Далее вы выберете расширения переменной. Различные расширения могут помочь выявить взаимосвязи между переменными. В модели произвольного леса не было необходимости в расширении, поскольку алгоритм автоматически обрабатывает нелинейные взаимосвязи между зависимыми и независимыми переменными. Вы можете выбрать несколько базисных функций в одном запуске инструмента, используя параметр Расширения независимой переменной (базисные функции), после чего в модели будут использоваться все преобразованные версии независимых переменных. Наиболее эффективные переменные выбираются с помощью регуляризации - метода выбора переменных, который уравновешивает плюсы и минусы между пригодностью и сложностью модели.
- Для параметра Расширения независимой переменной (базисные функции) установите отметки, чтобы выбрать Исходный (Линейный), В квадрате (Квадратический) и Попарное взаимодействие (Продукт).
Функция Исходный (Линейный) - единственная, которая будет работать для категориальных данных, таких как растительный покров. Квадратичная функция, которая создает квадратичную взаимосвязь, как правило, немного лучше моделирует взаимоотношения видов с факторами окружающей среды, поскольку для каждой переменной существуют определенные диапазоны, формирующие идеальную среду обитания вида. Например, виды, которые процветают в районах с умеренным количеством осадков, не приспособлены к условиям пустынь или тропических лесов; отношение является параболическим. Вероятность пригодности среды обитания для данного вида повышается с увеличением количества осадков, а затем снова падает, когда количество осадков превышает определенную отметку. Попарная функция также способствует моделированию условий окружающей среды, поскольку она может представлять отношения между ними.
- Для Область интереса выберите Полигон изучаемой области и выберите слой границ штата Калифорния в качестве Полигона изучаемой области.
- Отметьте параметр Применить пространственное прореживание.
Пространственное прореживание применяется как к точкам наблюдения, так и к фоновым точкам, чтобы уменьшить потенциальную погрешность выборки. Поскольку данные о наблюдениях за дикими свиньями были собраны людьми с помощью приложения iNaturalist, существует вероятность того, что они содержат предвзятость как для районов, где находятся люди, так и для районов, где есть люди с приложением iNaturalist, которые распознают различные виды и сообщают о них. Пространственное прореживание может уменьшить влияние погрешности, удаляя точки, расположенные близко друг к другу, которые могут отражать многократные наблюдения одного и того же животного, представляя охраняемую территорию, такую как национальный парк, где взаимодействие человека и животного более вероятно, и так далее.
- Для параметра Минимальное расстояние до ближайшего соседа выберите 1 километр в качестве расстояния.
Следующие параметры - это гиперпараметры модели.
- Если необходимо, разверните Дополнительные опции модели. Для Относительный вес присутствия к фону введите 1.
- Для Преобразование вероятности присутствия (функция связи) выберите Логический.
Из двух доступных функций Преобразования вероятности присутствия, Логическая является лучшим вариантом, когда присутствие не является абсолютным. Например, поскольку свиньи, скорее всего, не остаются в том месте, где их наблюдали, а бродят в поисках пищи и укрытия, логистическая функция является уместной. Поскольку вы решили использовать функцию Логическая, параметр Относительный вес присутствия к фону должен быть ниже. В этом случае вы в равной степени оцениваете точки присутствия и псевдоотсутствия.
На данный момент также примите значение Предельное значение вероятности присутствия, равное 0,5 - диагностика при первом запуске этого инструмента поможет определить, требуется ли другое предельное значение для улучшения будущих запусков.
Теперь вы можете выбрать, какие диагностические данные и диаграммы вы хотите получить на выходе инструмента. Инструмент организует выходные данные в выходные данные обучения и прогнозирования. Основное различие заключается в том, что результаты обучения соответствуют данным, которые использовались при обучении и выборе модели, а результаты прогнозирования соответствуют данным, которые модель еще не использовала.
- Разверните группу Выходные данные обучения. Для Выходные обученные объекты введите pop_output_trained.
Результатом этих выходных данных будет класс пространственных объектов, содержащий точки, использованные при обучении модели, и три диаграммы для дополнительной интерпретации. Эти выходные данные обозначают входные точки присутствия и любые фоновые точки, которые создаются с использованием сравнения классификации из модели с наблюдаемой классификацией, что обеспечивает визуальный метод анализа прогнозов модели.
На данный момент вы пропустите вывод обученного растра. Как только вы запустите исходную модель и узнаете, насколько хорошо она работает с входными точечными объектами, вы создадите растровую поверхность. Для первого запуска вы создадите Таблицу кривой ответов, чтобы показать влияние каждого входного растра на прогноз, и Таблицу чувствительности, которая поможет вам определить правильное значение параметра Предельное значение вероятности присутствия.
- Для Выходной таблицы кривой ответов введите pop_response_curve, а для Выходной таблицы чувствительности введите pop_sensitivity.
- Разверните группу Опции проверки. Для Схемы пересчета выберите Случайно и установите для параметра Количество групп значение 5.
Параметр Схема пересчета позволяет инструменту выполнять перекрестную проверку для оценки стабильности модели. Точки будут случайным образом разделены на пять групп, и каждая группа будет пропущена один раз при выполнении перекрестной проверки.
- Щелкните Запустить.
По завершении работы инструмента выходной слой и таблицы добавятся на панель Содержание. Слой pop_output_trained добавлен на карту.
Интерпретация и улучшение модели Прогнозирование только присутствия
Теперь, когда вы запустили инструмент один раз, вы сможете использовать диагностику, диаграммы и результаты обучения, чтобы оценить, насколько хорошо модель может предсказывать присутствие диких свиней. Инструмент диагностики помогает оценить точность модели, сообщая о количестве точек присутствия и точек фона, которые были правильно классифицированы. Хотя вся статистика и результаты первоначального обучения могут помочь вам улучшить некоторые аспекты модели, в этом разделе вы сосредоточитесь на статистике Площадь под кривой и Пропуски, которая поможет выбрать подходящий параметр Предельного значения вероятности присутствия для следующего запуска инструмента.
Примечание:
При обучении модели рекомендуется запускать ее несколько раз, тестируя различные параметры для улучшения. Это учебное пособие ограничено двумя запусками инструмента для экономии времени. Для дополнительного анализа результатов обратитесь к статье Как работает Прогнозирование только присутствия (MaxEnt).
- На панели Содержание снимите отметки у всех слоев, кроме pop_output_trained, слоя границ California и базовой карты, чтобы отключить их.
- В нижней части панели Геообработка щелкните Просмотреть подробности, чтобы открыть диагностику инструмента.
Для этого инструмента показано несколько предупреждений. Как и ранее, в некоторых точках, расположенных вблизи границ штата, возможно, отсутствовала доступная растровая информация. Фоновые точки не были прорежены, что не обязательно является проблемой, учитывая, насколько велика исследуемая область. Наконец, одна из категорий в наборе данных по растительному покрову (категория постоянного льда и снега) содержала менее восьми точек данных. Вы можете подробнее изучить эту проблему, используя таблицу Диагностика категории независимой переменной.
Первая таблица, которую следует просмотреть, - это таблица Число точек присутствия и фона, которая показывает точность модели.
- В таблице Число точек присутствия и фона сравните строку Число точек присутствия, чтобы узнать, сколько точек было использовано при обучении модели и сколько из них были правильно классифицированы как точки присутствия.
Чем ближе числа в этих двух столбцах, тем лучше работает модель. Вы также хотите оценить строку Число точек фона. Поскольку вы установили для параметра Относительный вес присутствия к фону значение 1, это число должно быть относительно низким.
В таблице Характеристики модели записаны использованные параметры модели.
- В таблице Сводная информация о модели оцените значение AUC.
AUC, или статистика площади под кривой, описывает, насколько хорошо модель оценивает известные местоположения присутствия как присутствие и известные фоновые местоположения как фон. Чем ближе это значение к 1, тем лучше работает модель. Статистика AUC используется в сочетании с Частотой пропусков, что показывает, какой процент точек присутствия неправильно классифицируется как имеющие низкую вероятность присутствия. Далее вы проанализируете обе эти статистики, используя диаграммы, созданные с помощью таблицы pop_sensitivity.
- Пролистайте до таблицы Коэффициенты регрессии.
В этой таблице представлены переменные, которые в конечном итоге использовались в модели. В большинстве из них слово product добавлено в качестве префикса, что показывает, что многие из используемых переменных были преобразованы с использованием расширений Попарное взаимодействие (Продукт).
Последние две таблицы показывают диапазон значений, представленных в данных выборки. В последней таблице вы можете просмотреть данные NLCD и увидеть, в какой категории выборка недостаточна, что вызвало предупреждение, которое вы видели выше.
- В таблице Диагностика категории независимой переменной найдите категорию, которая содержит менее 8 выбранных значений.
Категория 12 в этом примере содержит четыре точки выборки. Согласно информации об элементе для слоя NLCD, Категория 12 представляет собой Многолетний лед/Снег, которого в Калифорнии относительно немного. Поскольку число выборок примерно соответствует реальному присутствию данного конкретного типа покрова, вам не нужно беспокоиться о размере выборки.
Далее вы ознакомитесь с обученными объектами и таблицами, которые вы создали для оценки своей модели. Слой pop_output_trained показывает все точки, используемые в модели. Точки присутствия отображаются как правильно или неправильно классифицированные в соответствии с прогнозом модели. Фоновые точки классифицируются либо как потенциально являющиеся точками присутствия, либо как остающиеся фоновыми точками.
- Закройте окно просмотра подробностей.
- На панели Содержание под слоем pop_output_trained дважды щелкните диаграмму Процент результатов классификации.
Диаграмма показывает сравнение наблюдаемой и прогнозируемой классификаций. Вы начнете с анализа процента точек присутствия, которые были правильно классифицированы моделью.
- На панели Диаграмма в столбце Присутствие наведите курсор на вкладку Присутствие – Правильно классифицировано, чтобы отобразить числовую сводку данных.
На примере изображения видно, что 65,68 процента точек присутствия были правильно классифицированы. Это довольно хорошо для модели, но результат можно улучшить.
Одним из способов улучшения этой модели является пересмотр параметра Предельное значение вероятности присутствия. Чтобы найти лучшее значение для этого параметра, воспользуйтесь диаграммами Частота пропусков и График ROC.
- Закройте диаграмму Процент результатов классификации.
- На панели Содержание в разделе Автономные таблицы для таблицы pop_sensitivity дважды щелкните диаграммы Частота пропусков и График ROC, чтобы открыть их.
- Щелкните и перетащите диаграмму График ROC таким образом, чтобы вы могли видеть ее и диаграмму Частота пропусков одновременно.
- На диаграмме Частота пропусков выберите предельное значение вероятности присутствия по умолчанию, равное 0,5 и оцените результирующую чувствительность по оси у графика ROC.
На примере изображения предельное значение вероятности, равное 0,5, привело к тому, что коэффициент пропуска составил 0,343, что привело к чувствительности 0,657. Частота пропусков - это процент известных точек присутствия, которые были ошибочно классифицированы моделью как точки отсутствия.
При совместном использовании, диаграммы Частота пропусков и График ROC показывают, как различные значения параметра Предельное значение вероятности присутствия влияет на количество неправильно классифицированных точек присутствия. Хотя, как правило, хорошо иметь коэффициент пропуска, близкий к 0, снижение граничного значения также увеличит количество фоновых точек, классифицируемых как точки присутствия, что может снизить специфичность модели. Поскольку дикие свиньи являются адаптивными падальщиками, в данном случае полезно найти больше мест, где они могли бы выжить, так вы найдете баланс между специфичностью и чувствительностью, который позволит выявить больше точек присутствия.
- На диаграмме График ROC щелкните по одной из точек со значением около 0,9 на оси y.
В примере модели чувствительность, равная 0.9, приведет к тому, что процент пропусков составит 0.098 процента. Чтобы получить этот результат, вы повторно запустите инструмент, используя Предельное значение 0,24.
- На панели Геообработка для Предельное значение вероятности присутствия введите 0.24.
- Для всех выходных данных, которые вы создали в группе Обучающие выходные данные, добавьте суффикс _ppc в конец имени выходных данных.
Вы также создадите выходной растр прогнозирования.
- Для Выходной обученный растр введите pop_trained_raster_ppc и щелкните Выполнить.
- На панели Содержание отключите все слои, кроме слоя pop_trained_raster_ppc, слоя границ California и базовой карты.
- Используйте то, что вы узнали о диагностике модели и выходных таблицах, чтобы оценить новую модель.
Как и в случае с анализом на основе леса, который вы выполнили ранее, этот подход к моделированию часто требует более двух итераций. Используя свое понимание параметров и гиперпараметров, вы можете продолжать вносить изменения и сравнивать точность выходных данных, пока не найдете наилучшее сочетание для ваших данных и ситуации.
Сравнение методов Произвольный лес и MaxEnt
Оба варианта анализа, примененных в этом руководстве, могут быть использованы для моделирования распространения видов. В зависимости от целей анализа, имеющихся у вас данных и других факторов, вы можете выбрать один или оба этих метода для своего собственного моделирования. Как и все статистические и аналитические методы, Классификация на основе леса и MaxEnt имеют свои сильные и слабые стороны, которые необходимо учитывать. В этом разделе вы сравните полученные вами выходные поверхности прогнозирования и рассмотрите некоторые преимущества обоих подходов к моделированию.
- На панели Содержание включите слой fbbcr_feral_swine_prediction.
- Щелкните слой pop_trained_raster_ppc, чтобы выбрать его.
- Щелкните на ленте вкладку Растровый слой. В группе Сравнить щелкните Спрятать.
- Щелкните на карте и перемещайте курсор вперед и назад, чтобы сравнить две растровые поверхности прогнозирования.
Поверхности прогнозирования схожи, что является хорошим признаком точности моделей.
При использовании методов пространственной статистики для прогнозирования, у каждого метода есть свои преимущества и ограничения, которые вам следует учитывать, чтобы убедиться, что вы выбрали наилучший метод, соответствующий цели вашего анализа и имеющимся у вас данным.
Классификация на основе леса и регрессия
Сильные стороны этого подхода Другие соображения Может фиксировать неизвестную или более сложную взаимосвязь между зависимыми и независимыми переменными.
Требуется наличие как точек присутствия, так и отсутствия (или псевдоотсутствия).
Отношения указывать не нужно, как это делается для прогнозирования только присутствия.
Хотя важность переменных помогает нам понять вклад каждой независимой переменной в модель, интерпретировать важность переменных может быть сложно. Например, вы не знаете, являются ли отношения положительными или отрицательными.
Прогноз только присутствия
Сильные стороны этого подхода Другие соображения Он предназначен только для моделирования присутствия, поэтому вам не нужно подготавливать точки отсутствия.
Необходимо предположить отношение между зависимой переменной и независимыми переменными.
Обеспечивает большую гибкость при принятии решения о том, как распределять вес фоновых точек, используя параметр Относительный вес присутствия к фону.
Параметр пространственного прореживания можно использовать для управления точками отсутствия.
Выходная растровая поверхность предоставляет более подробную информацию о вероятности обитания свиней, а не бинарное решение о наличии или отсутствии.
В этом руководстве вы использовали два метода анализа для моделирования распределения диких свиней в Калифорнии. Как инвазивный вид, дикие свиньи представляют угрозу экосистемам и сельскому хозяйству штата. Эти методы моделирования могут быть использованы для изучения широкого спектра других видов и явлений.