トレーニング データの準備

海草が存在することが判明している場所のセットと海洋計測値のセットを使用する空間統計手法を使用して全世界の海草生息地を推定します。 このデータから、最大エントロピー (または Maxent) と呼ばれる機械学習を実装する Presence-only 予測ツールは、海洋計測値を考慮して、その他の場所に海草が存在する確率を推定します。 この解析を実行するには、データをクリーニングして準備する必要があります。 最初に、米国沿岸周辺に海草の存在を表すポイントを作成します。 次に、モデルの予測因子として機能する海洋計測値を表す内挿サーフェスを生成します。

データのダウンロードと内容確認

はじめに、海草データをダウンロードして調べます。

  1. Seagrass Habitat Prediction ArcGIS Pro プロジェクト パッケージをダウンロードします。
  2. [SeagrassPrediction.ppkxx] ファイルをダブルクリックして、ArcGIS Pro でプロジェクトを開きます。

    グローバル マップが開きます。 [コンテンツ] ウィンドウには、次の 4 つのフィーチャクラスが用意されています。

    • Global ocean measurements - 水深 90 メートルまでの海洋計測値を含む、Ecological Marine Unit ポイント データ。
    • USA seagrass - 海草の存在についてのポリゴン データ。 USA seagrass 内の各ポリゴンは、識別されている海草生息地です。
    • USA shallow waters - モデル トレーニングの分析範囲として使用される米国大陸の浅瀬の海底地形ポリゴン。
    • Global shallow waters - 全世界の海草の予測に使用される全世界の浅瀬の海底地形ポリゴン。

    データ レイヤーは、Equal Earth 投影座標系に含まれており、グローバル解析に適しています。

  3. [コンテンツ] ウィンドウで、[Global ocean measurements] レイヤーをオフにします。

    Global ocean measurements レイヤーをオフにします。

    浅い海域はライト ブルーで表示されています。

    ライト ブルーのエリアは、海草の生育を可能にする水深である世界中の浅瀬の海底地形ゾーンを表しています。

  4. リボンの [マップ] タブをクリックし、[ナビゲーション] セクションで、[ブックマーク] をクリックして [Florida] をクリックします。

    マップでフロリダが拡大表示されます。

    明るい緑色のエリアは、海草生息地が特定された場所です。 米国大陸周辺で海草が存在する既知の場所に関する情報を使用して、海草生息地が存在する可能性がある世界中の場所について予測します。 これは地球的規模の予測であるため、海草が存在する可能性が最も高い特定の湾内の場所を特定するなど、小さなエリアの海草生息地の特定には適していません。 後で、その他の予測シナリオでモデルを再利用する方法について学習します。

  5. [コンテンツ] ウィンドウで、[Global ocean measurements] レイヤーをオンにして、もう一度表示します。

    計測値レイヤーが再び表示されます。

    これらの [Global ocean measurements] ポイントは Ecological Marine Units (EMU) の 10 年間の平均、50 年平均、データ値を示しています。 ほとんどのデータは、海草観測レイヤーの外側にあります。 Presence-only 予測ツールを使用して適切な予測モデルを作成するには、既知の海草エリア内にある多数のポイントと対応する海洋計測値データが必要です。 海草ポリゴン内にある EMU_Global_90m ポイントのサブサンプルだけを使用すると、観測データがかなり少なくなります。

    この問題を解決するには、既知の海草生息地内に一連のランダム ポイントを作成して、モデルをトレーニングします。 また、Global ocean measurements 変数からサーフェスを内挿し、ランダムな海草生息地ポイントを使用して、内挿された計測値の値をサンプリングします。 [Global ocean measurement] 変数は、 temp (温度)、salinity、dissO2 (溶存酸素)、nitrate、phosphate、silicate、srtm30 (深度) です。

    まず、米国の海草ポリゴンを単一のマルチパート フィーチャにディゾルブして、海草が存在する既知のエリア内に 5,000 個のランダム ポイントを作成します。

トレーニング ポイントの作成

次に、トレーニング データセットを作成します。これは、Presence-only 予測ツールが海草の存在と海洋条件の間のリレーションシップをモデル化するうえで必要となります。 トレーニング データには、海草が存在する既知の場所を表すポイントと 7 つの予測因子変数 (海洋計測値) を表すラスターの 2 種類があります。 USA seagrass ポリゴンの範囲内にランダム ポイントを作成します。 これらの生息域内に含まれるエリア全体で特定の数のランダム ポイントを作成するので、このレイヤー内にある多数のポリゴンを単一のポリゴンにディゾルブしてから、ポイントを作成します。

  1. リボンの [解析] をクリックし、[ジオプロセシング] セクションで、[ツール] をクリックします。
  2. [ジオプロセシング] ウィンドウの検索ボックスに「pairwise dissolve」と入力します。
  3. 検索結果で [ペアワイズ ディゾルブ] ツールをクリックして開きます。

    ペアワイズ ディゾルブ ツールを開きます。

  4. [入力フィーチャ] のドロップダウン リストをクリックし、[USA seagrass] レイヤーをクリックします。
  5. [出力フィーチャクラス] のデフォルト名である [USAseagrass_PairwiseDissolve] をそのまま使用します。
  6. その他のパラメーターはデフォルトのままにし、[マルチパート フィーチャの作成] チェックボックスがオンに設定されていることを確認します。

    ペアワイズ ディゾルブのパラメーター

  7. [実行] をクリックします。

    ツールが完了すると、新しいフィーチャ レイヤー [USAseagrass_Dissolve] がマップに追加され、[コンテンツ] ウィンドウにリストされます。 このバージョンの海草レイヤーを使用するので、ワークスペースを片付け、混乱を避けるために元のレイヤーを削除することをお勧めします。

  8. [USA seagrass] レイヤーを右クリックして [削除] をクリックします。

    USA seagrass レイヤーを削除します。

    次に、海草が存在する場所のランダム ポイントを生成します。

  9. [ジオプロセシング] ウィンドウで、戻る矢印をクリックし、検索ボックスに「create random points」と入力します。
  10. 検索結果で、[ランダム ポイントの作成] ツールをクリックします。

    ランダム ポイントの作成ツール

  11. [出力ポイント フィーチャクラス] に「USA_Train」と入力します。
  12. [制限フィーチャクラス] のドロップダウン リストをクリックし、[USAseagrass_PairwiseDissolve] を選択します。
  13. [ポイント数 [値、またはフィールドを指定]] で、値を [5000] に変更します。

    [ランダム ポイントの作成 (Create Random Points)] のパラメーター

  14. [実行] をクリックします。

    ランダム ポイントがマップに表示されます。

    ランダム ポイントがマップに追加されます。

    これで、米国沿岸周辺の既知の海草生息地内に収まる 5,000 個のポイントを含む新しいフィーチャクラスが作成されました。Presence-only 予測モデルのトレーニングにこれを使用します。 現時点では、これらの場所に関連付けられた環境変数はありません。 その情報は [Global ocean measurements] ポイントの場所に格納されます。 これに対処するには、Global ocean measurements ポイントでサンプリングされた環境変数の連続内挿サーフェスを作成します。

環境ラスターの内挿

[Global ocean measurements] フィーチャクラスには Ecological Marine Units データセットからのデータが含まれています。 このレイヤーには、Presence-only 予測の予測変数として必要な属性があります。 たとえば、塩分濃度、海洋温度、硝酸濃度などの変数があります。 経験ベイズ クリンギング (EBK) 地球統計学的方法を使用して、[Global ocean measurements] レイヤーに格納されている環境変数のラスター サーフェスを内挿します。 その後、Presence-only 予測モデルが各トレーニング ポイントの場所にある説明データにアクセスできるように、[USA_Train points] にあるこれらのラスターの値をサンプリングします。

  1. [ジオプロセシング] ウィンドウで、戻る矢印をクリックし、検索ボックスに「empirical bayesian kriging」と入力します。

    Empirical Bayesian Kriging ツールを検索します。

  2. 検索結果の [Empirical Bayesian Kriging] ツールを右クリックし、[バッチ] をクリックします。

    EBK ツールをバッチ モードで開きます。

    [バッチ経験ベイズ クリギング] ページが表示されます。

  3. [バッチ パラメーターの選択] のドロップダウン リストをクリックし、[Z 値フィールド] を選択します。

    Z 値フィールドを選択します。

  4. その他のパラメーターはデフォルト値のままにして、[次へ] をクリックします。
  5. [入力フィーチャ] のドロップダウン リストをクリックし、[Global ocean measurements] をクリックします。
  6. [バッチ Z 値フィールド][複数追加] ボタンをクリックします。

    ドロップダウン リストをクリックして、複数追加をクリックします。

    フィールドのリストが表示されます。

  7. 7 つの海洋計測変数 ([temp][salinity][dissO2][nitrate][phosphate][silicate][srtm30]) のチェックボックスをオンにして、[追加] をクリックします。

    7 つの環境変数フィールドのチェックボックスをオンにします。

    [追加] をクリックすると、フィールドがツール ウィンドウに追加されます。

    フィールドがツールに追加されます。

  8. [出力ラスター] を「EBK_%Name%」に変更します。

    出力ラスターを EBK_%Name% に変更します。

    これにより、フィールドごとに EBK_ plus というフィールド名を持つラスターが作成されます。

  9. [出力セル サイズ] で、値を「25000」に変更します。
  10. [セミバリオグラム モデル タイプ] のドロップダウン リストをクリックし、[リニア] を選択します。

    セルサイズとセミバリオグラム モデル タイプ

  11. [追加モデル パラメーター] セクションを展開し、[各ローカル モデルの最大ポイント数] を「50」に設定します。
  12. [セミバリオグラムのシミュレーション回数] を「50」に設定します。

    ポイントとセミバリオグラムの数を 50 に設定します。

    これらの設定により、各モデル内のポイント数とセミバリオグラムのシミュレーション回数を制限することで EBK 予測の速度を上げることができます。 これらの値を増やすと予測の精度が高まりますが、ツールの処理時間も増加します。 これらのパラメーターの理解を深めるには、「経験ベイズ クリギングとは?」ヘルプ ページをご参照ください。

  13. [検索近傍パラメーター] セクションを展開し、[検索近傍][標準円形] に設定して、[最小近傍] を「3」に減らします。

    検索近傍パラメーターを設定します。

    標準円形の検索近傍を使用すると、ツールの処理時間が短くなります。 最小近傍要件を制限すると、近傍数が非常に少ない場合でも未知の場所の値を予測できるようになります。 これらを含むパラメーターの詳細については、「Empirical Bayesian Kriging」ツールのドキュメントをご確認ください。

  14. [実行] をクリックします。

    このツールはバッチ モードで実行し、7 つのグローバル内挿ラスターを生成するため、実行にしばらく時間がかかります (約 5 分)。

    ツールは、いくつかのフィーチャで NODATA 値が無視されたことを示す警告とともに完了します。 これは問題ではありません。

    [Batch Empirical Bayesian Kriging] ツールが完了したら、各海洋計測サーフェスがマップに追加されます。 以下の図のように表示されます。以下の図は、硝酸濃度の EBK モデルを示しています。

    EBK nitrate レイヤー

  15. [プロジェクトの保存] をクリックします。

    プロジェクトを保存します。

米国沿岸周辺の海草生息地内に海草が存在する場所を表すランダム ポイントを生成し、経験ベイズ クリギングを使用して説明ラスターを作成することでモデリング用のデータを準備しました。 次に、トレーニング データを使用して、全世界の海草生息地の存在を予測するモデルを作成します。


生息地の予測と結果の調整

データの準備が整ったので、Presence-only 予測ツールを使用してモデルを作成し予測を行います。 Presence-only 予測は最大エントロピー法 (MaxEnt) を使用します。これは、不在データを使用できないシナリオを処理できるため、特に種の分布のモデリングに適した機械学習手法です。

Presence-only 予測の実行

Presence-only 予測 (MaxEnt) ジオプロセシング ツールを使用して、海草生息地を予測するモデルをトレーニングし、世界中の海岸線周辺における海草生息地の確率を示す予測ラスターを作成します。 モデル診断を評価し、モデリング プロセスを反復処理してモデルを改善します。

  1. [ジオプロセシング] ウィンドウで、戻る矢印をクリックし、検索ボックスに「presence」と入力します。
  2. 検索結果で、[Presence-only 予測 (MaxEnt)] をクリックします。

    Presence-only 予測ツールを開きます。

  3. [入力ポイント フィーチャ] のドロップダウン リストをクリックし、[USA_Train] レイヤーをクリックします。

    入力ポイント フィーチャを USA_Train に設定。

  4. [説明トレーニング ラスター][複数追加] ボタンをクリックします。

    複数追加ボタンをクリックします。

    ラスター レイヤーのリストが表示されます。

  5. 7 つの海洋計測ラスター ([EBK_dissO2][EBK_nitrate][EBK_phosphate][EBK_salinity][EBK_silicate][EBK_srtm30][EBK_temp]) のチェックボックスをオンにして、[追加] をクリックします。

    説明ラスターを追加します。

    [追加] をクリックすると、ラスターがツール ウィンドウに追加されます。

    ラスターがツールに追加されます。

    これらはすべて連続計測ラスターなので、[カテゴリ] チェックボックスはオフにします。 ツールはカテゴリ値のトレーニング変数も使用できます。その場合はこのチェックボックスをオンにする必要があります。

  6. [説明変数の展開 (基底関数)][Original (Linear)][Squared (Quadratic)][Pairwise interaction (Product)][Smoothed step (Hinge)] のチェックボックスをオンにします。

    オンにされた説明変数の展開 (基底関数)

    基底関数は、説明変数を変換 (または展開) して、海草の存在と対象の変数のより複雑なリレーションシップの形態をモデルに組み込みます。 複数の基底関数の選択には、モデルに変換されたバージョンの変数がすべて含まれます。正規化を使用して、そこから最もパフォーマンスが高い変数が選択されます。 この場合、Discrete ステップ オプションを除くすべてのオプションを選択します。Smoothed ステップと Discrete ステップは比較的同じであり、1 つだけ選択すると処理時間が短くなるためです。 各基底関数の詳細については、ツールのドキュメントをご確認ください。

  7. [ノット数][分析範囲] ではデフォルト値の [10][凸包] をそのまま使用します。

    ノット数と分析範囲のデフォルト値をそのまま使用します。

    [ノット数] は、変数の最小値と最大値の間の等間隔数を指定する [Smoothed step (Hinge)] 基底関数に関連する設定で、フォワード ヒンジの変換済み変数とリバース ヒンジの変換済み変数の両方が作成されます。 [凸包] の設定は、分析範囲がすべての入力トレーニング ポイントの凸包として指定されることを意味します。 ツールは、存在ポイントを含まない分析範囲のエリア内に、海草が不在である可能性を表す背景ポイントを生成します。

  8. [空間間引きの適用] チェックボックスをオンにします。 [最小最近隣距離] を「2」に設定し、単位に [キロメートル] を選択します。 [間引きの処理の反復回数][10] に設定されていることを確認します。

    空間間引きセクション

    これらの設定により、エリアが空間的に過剰にサンプリングされないように特定の距離内にある存在ポイントと背景ポイントを減らすことで、可能性があるサンプル バイアスを最小限に抑えることができます。 背景ポイント間の距離は説明ラスターの空間解像度の影響を受けるので、この場合、2 キロメートルの距離を使用すると、海草が存在するエリアよりも過剰な背景ポイントのサンプリングを回避できます。 複数回の間引きの反復を使用すると、ツールは間引き処理時に複数回試行して、トレーニング ポイントを最も多く保持するオプションを選択できます。

  9. [出力トレーニング済みモデル ファイル] ボックスは空白のままにします。

    後で解析を共有するためにモデル ファイルを保存しますが、モデルがうまく機能することを確認してからに限られます。

  10. [高度なモデル オプション] セクションを展開して、[存在から背景までの相対ウェイト][100][存在確率変換 (リンク関数)][C-log-log][存在確率のカットオフ][0.5] にそれぞれ設定されていることを確認します。

    高度なモデル オプション セクション

    [存在から背景までの相対ウェイト] の値が 100 の場合、ツールが生成した背景ポイントの位置に海草が存在するかどうかは不明です。

    海草は位置の点について不明確さがわずかである (つまり、海草には考慮すべき移動性や移動がない) ため、このシナリオでは [存在確率変換][C-log-log] を使用することをお勧めします。 [存在確率のカットオフ] が 0.5 の場合、0.5 より大きい確率を持つ位置が存在として分類されます。

  11. [トレーニング出力] セクションを展開し、[出力トレーニング済みフィーチャ] に「trainfeatures1」と入力します。

    これは、モデルの生成に使用されるトレーニング済みフィーチャ (この場合、存在ポイントと背景ポイント) を含む出力フィーチャクラスになります。

  12. [出力応答曲線テーブル] に「rc1」と入力します。
  13. [出力感度テーブル] に「sensitivity1」と入力します。

    トレーニング出力セクション

    [出力応答曲線テーブル][出力感度テーブル] は、モデルのパフォーマンスを把握するのに役立ちます。

  14. [予測オプション] セクションを展開し、[出力予測ラスター] に「seagrass_predict1」と入力します。

    予測オプション セクション

    これは、海草生息地が存在する可能性についてのモデルの予測を表示する出力ラスターになります。

  15. [説明ラスターの照合] テーブルに [予測] ラスターと [トレーニング] ラスターの一致する値が含まれていることを確認します。

    説明ラスターの照合セクション

    前に米国沿岸のデータ ポイント上でモデルをトレーニングするための説明ラスターを指定しました。ここでは、同じラスターを使用してグローバルな予測を実施します。 場合によっては、異なる説明ラスターを使用して予測を行うこともあります。 たとえば、同じ海洋計測変数を使用するが、今後 50 年間の投影値を使用して、気候変動が海草生息地と範囲にどれだけ影響するかを評価します。

  16. [データ範囲外の予測を許可] チェックボックスをオンのままにしておきます。

    米国沿岸のデータだけを使用してモデルをトレーニングしているため、世界全体の予測を行うには、データの範囲外での予測を許可する必要があります。

    注意:

    このようにデータの範囲外で予測を行うと、特に値がトレーニング データの範囲外で最適になる地域で、予測の信頼性が低くなる可能性があります。

    条件が米国海岸とは大きく異なる場所 (南極など) の予測結果を後で調べる際には、この点に注意してください。

  17. [検証オプション] セクションを展開し、[リサンプリング スキーマ] のドロップダウン リストをクリックして [ランダム] を選択し、[グループ数] のデフォルト値の [3] をそのまま使用します。

    検証オプション セクション

    これらのパラメーターは、ツールにモデルの K 分割交差検証を実行するよう指示します。

    ツールを実行する準備がもう少しで完了します。 [環境] 設定を追加して、実行する前に処理されるエリアを制限します。

  18. ツール ウィンドウの上部にある [環境] タブをクリックします。

    [環境] タブをクリックします。

  19. 下にスクロールし、[ラスター解析] セクションで [マスク] のドロップダウン リストをクリックして、[Global shallow waters] レイヤーを選択します。

    マスクに Global shallow waters レイヤーを選択します。

    海草は浅瀬で成長するため、処理対象のエリアを浅瀬に制限すると時間の節約になります。

  20. [実行] をクリックします。

    ツールの実行にはしばらく時間がかかります (約 2 分)。

  21. [コンテンツ] ウィンドウで、[seagrass_predict1] レイヤーと [ベースマップ] を除くすべてのレイヤーのチェックボックスをオフにして無効にします。

    注意:
    Ctrl キーを押しながらチェックボックスをクリックすると、複数のレイヤーを同時にオンまたはオフにできます。 キーボード ショートカットの詳細については、ドキュメントをご参照ください。

    seagrass_predict1 レイヤーとベースマップ

    マップには予測された海草生息地のエリアが示され、海草が存在する可能性が最も高いエリアを表す濃い紫色でシンボル表示されます。 説明変数がトレーニングに使用された範囲から外れている特定のエリア (南極など) では、予測が正確でない可能性があります。

予測の評価

予測を実行したら、結果を評価して、予測モデルに変更を加えるかどうかを決定します。 モデル診断を確認して予測を更新したら、モデル ファイルを保存して、解析を複製または拡張する他のユーザーと共有します。

海草生息地の予測エリアを調べて、作成したモデルが有効であるかどうか、予測する対象の変数が適切であるかどうかを知るにはどうすればよいでしょうか?

seagrass_predict1 レイヤーとベースマップ

多くの場合、予測結果だけを調べて判断することはできません。 モデルを評価するには、トレーニング データとモデルの診断を調べる必要があります。

  1. [コンテンツ] ウィンドウでチェックボックスをオンにして、[trainfeatures1] レイヤーをオンにします。
  2. [trainfeatures1] を右クリックし、[レイヤーにズーム] をクリックします。

    trainfeatures1 レイヤーにズームします。

    trainfeatures1 レイヤーが表示されます。

    グレーと緑のポイントは、海草生息地が存在するまたは存在しない可能性がある場所のデータを収集するためにツールが作成した背景トレーニング ポイントを表します。

    これらのデータ ポイントには大きな問題があります。 大半が土地を覆っており、海草生息地を予測するモデルには適していません。 これはモデルの概念的な問題です。ここでは、モデルが正しく指定されるようにするためにドメイン固有の知識を持つことと各ツール パラメーターを理解することの重要性について説明します。

    次に、モデル診断を確認して、モデルがどのように実行されたかを確認します。

  3. [ジオプロセシング] ウィンドウの下部で、[詳細の表示] をクリックします。

    詳細を表示します。

    注意:
    [履歴] ウィンドウを開き、[Presence-only 予測 (MaxEnt)] を右クリックして、[詳細の表示] をクリックすることで、[詳細] ウィンドウにアクセスすることもできます。

    [詳細] ウィンドウには、作成したモデルとそのパフォーマンスに関する重要な情報が表示されます。 また、ツールの実行からの警告も含まれます。 この場合、警告は解析の問題ではありません。

  4. [メッセージ] をクリックして、[モデル サマリー] テーブルまで下にスクロールします。

    モデル サマリー テーブル。

    このテーブルには、指定された存在確率のカットオフ (この場合、0.5) 未満のモデルのオミッション率と AUC 値が表示されています。 AUC とは ROC (Receiver Operating Characteristic) 曲線下面積で、真陽性と偽陽性の割合を比較することによりモデルのパフォーマンスを計測します。 オミッション率が低く AUC 値が 1 に近いほど、良いモデルのパフォーマンスが示されます。

    注意:
    コンピューターのハードウェアにより EBK 内挿にわずかな違いがあるため、オミッション率と AUC 値に少し違いがあることがあります。

    モデルの AUC (1 に近い) は非常に高く、望ましい値ですが、オミッション率 (0.15 より大きい) も少し高い値です。 また、モデルの理解を深めるために、[詳細] ウィンドウでその他の情報 (回帰係数や交差検証の概要など) も確認できます。

    交差検証の概要テーブルと警告

    [交差検証の概要] テーブルは、[% 存在 - 正しく分類] が 82 ~ 86% の範囲であることを示しています。

    評価するモデルの最後の側面は、応答曲線テーブルと感度テーブルです。

  5. [詳細] ウィンドウを閉じます。
  6. [コンテンツ] ウィンドウで [スタンドアロン テーブル] セクションの下までスクロールして、[rc1] テーブルの [チャート] セクションにある [連続変数の部分的な応答] チャートをダブルクリックします。

    連続変数の部分的な応答チャートをダブルクリックします。

    [連続変数の部分的な応答] チャートは、各説明変数の値の変化が存在確率に及ぼす影響を視覚化し、その他のすべての変数は一定に保持します。

    開かれた連続変数の部分的な応答チャート。

  7. [EBK_SALINITY] チャートをクリックします。

    EBK_SALINITY チャートは右側に拡大されて表示されます。

    小さいチャートをクリックすると、右側の大きなチャートで変数が見やすくなります。 [EBK_SALINITY] チャートは、塩分濃度値の狭い範囲で、海草生息地の存在確率が急激に最大になることを示しています。

  8. [連続変数の部分的な応答] チャートを閉じます。
  9. [スタンドアロン テーブル] セクションの [sensitivity1] テーブルの下で [チャート] セクションにある [オミッション率] チャートをダブルクリックして、[ROC プロット] チャートをダブルクリックします。
  10. チャート ウィンドウのタブをクリックおよびドラッグし、一緒に表示されるようにチャートを配置します。

    一緒に表示されたオミッション率チャートと ROC プロット チャート。

    この 2 つのチャートは、前に確認したオミッション率と AUC 診断に追加のコンテキストを提供します。

  11. [オミッション率] チャートでボックスをクリックおよびドラッグして、0.5 のカットオフ値に近いポイントを選択します。

    オミッション率チャート上のデータ ポイントを選択します。

    0.5 のカットオフ値は、モデルで使用したデフォルト値です。

    クリックおよびドラッグしてオミッション率チャート上のポイントを選択することにより、存在確率のカットオフの変更が背景ポイントの分類にどのように影響するかを調査できます。

    カットオフ値を低くすると、存在の可能性として分類された背景ポイントの比率が増加します。

  12. チャートを閉じます。

    モデルの結果を確認し、コンテキスト診断データを調査しました。 次に、土地の上にトレーニング ポイントがあることの概念的な問題を処理するようモデルを調整します。

最適な分析範囲を使用したモデルの再実行

最初にモデルを実行したとき、[USA_Train] フィーチャ レイヤーでポイントの凸包範囲内に一連のトレーニング済み分類ポイントが作成されました。 ポイントは浅瀬にありますが、その間の大部分のエリアは土地が占めています。 ここでは、モデルを再実行しますが、トレーニング済み分類ポイントの配置を浅瀬内にあるエリアに制限します。

  1. [解析] タブをクリックして、[ジオプロセシング] セクションで [履歴] をクリックします。

    ジオプロセシング履歴を開きます。

  2. [履歴] ウィンドウで、結果の最上部の [Presence-only 予測 (MaxEnt)] をダブルクリックします。

    ジオプロセシング履歴から実行された Presence-only 予測 (MaxEnt) ツールを開きます。

    この方法でツールを開くと、前のすべてのパラメーターが入力されたままの状態でツールが開きます。

    注意:
    [ジオプロセシング] ウィンドウのすべてのパラメーター値を再設定するには時間がかかる場合があります。

    いくつかのツール パラメーターだけを変更します。

  3. [Presence-only 予測 (MaxEnt)] ツールで [分析範囲] パラメーターまで下にスクロールし、ドロップダウン リストをクリックして、[ポリゴン分析範囲] をクリックします。

    ポリゴン分析範囲オプションを選択します。

    ツール検証が完了したら、新しいパラメーターが表示されます。

  4. [分析範囲のポリゴン] のドロップダウン リストをクリックし、[USA shallow waters] をクリックします。

    分析範囲のポリゴン レイヤーとして USA shallow waters レイヤーを選択します。

    これにより、候補の海草生息地存在および不在テスト ロケーションのエリアを米国大陸周辺の浅瀬沿岸エリアに制限します。

  5. [出力トレーニング済みモデル ファイル] に「seagrass_model」と入力します。

    しばらくすると、プロジェクト フォルダー構造内のパスが設定され、.ssm ファイル拡張子がモデル名に追加されます。

    トレーニング済みモデル ファイルの名前とパス

    チュートリアルの次のセクションで、このモデル ファイルを操作します。

    注意:
    通常、新しいモデルを評価して、結果が適切であることを確認してからモデル ファイルを保存しますが、時間を節約するために、ここで出力します。

  6. [トレーニング出力] セクションを展開し、出力名に 2 を付けて更新して、これが 2 回目の実行であることを示します。

    • [出力トレーニング済みフィーチャ]: trainfeatures2
    • [出力応答曲線テーブル]: rc2
    • [出力感度テーブル]: sensitivity2

    これが 2 回目のモデルの実行であることを示すように更新されたトレーニング出力。

  7. [予測オプション] セクションを展開し、[出力予測ラスター] の名前に 2 を付けて更新して、これが 2 回目の実行であることを示します。

    • [出力予測ラスター]: seagrass_predict2

    これが 2 回目のモデルの実行であることを示すように更新された出力予測ラスター名。

  8. [実行] をクリックします。

    ツールの実行にはしばらく時間がかかります (約 2 分)。

    ツールの処理が完了すると、レイヤーが [コンテンツ] ウィンドウに追加されます。

  9. [コンテンツ] ウィンドウで、[seagrass_predict2] レイヤーと [ベースマップ] を除くすべてのレイヤーのチェックボックスをオフにして無効にします。

    2 つ目の予測結果のセット

  10. [コンテンツ] ウィンドウで [trainfeatures2] レイヤーのチェックボックスをオンにして有効にします。
  11. [trainfeatures2] レイヤーを右クリックし、[レイヤーにズーム] をクリックします。

    トレーニング フィーチャはすべて浅瀬ポリゴン内に配置されます。

    トレーニング フィーチャ (存在ロケーションおよび背景ロケーション) が土地以外の沿岸エリアに適切に配置されます。

  12. [Presence-only 予測 (MaxEnt)] ツールで [詳細の表示] をクリックします。

    詳細を表示します。

  13. [メッセージ] をクリックして、[モデル サマリー] テーブルまで下にスクロールします。

    2 つ目のモデル サマリー レポート

    [オミッション率][AUC] の値を確認します。 [AUC] は前のモデルとほぼ同じですが、オミッション率ははるかに低く、モデルのパフォーマンスが向上したことを示しています。

    [交差検証の概要] テーブルは、[% 存在 - 正しく分類] が 95 ~ 96% の範囲であることを示しています。

    交差検証の概要テーブル

    このモデルの感度チャートと応答曲線チャートを探索し、前のモデルと比較することもできます。

  14. [詳細] ウィンドウを閉じます。

予測値の比較

次に、2 つのモデルの予測値を視覚的に比較します。

  1. リボンの [マップ] タブをクリックし、[ナビゲーション] セクションで、[ブックマーク] をクリックして [ヨーロッパ] をクリックします。
  2. [コンテンツ] ウィンドウで、[seagrass_predict2][seagrass_predict1][ライト グレー ベース] を除くすべてのレイヤーの表示設定をオフにします。

    2 つの海草予測のレイヤーがコンテンツ ウィンドウでオンにされています。

  3. [コンテンツ] ウィンドウで [seagrass_predict2] レイヤーをクリックします。

    seagrass_predict2 レイヤーを選択します。

    リボンに [ラスター レイヤー] コンテキスト タブが表示されます。 このタブは、ラスター レイヤーが [コンテンツ] ウィンドウで選択されている場合に使用可能になります。

  4. リボンの [ラスター レイヤー] タブをクリックします。

    ラスター レイヤー メニューをクリックします。

  5. [比較] グループで [スワイプ] ツールをクリックします。

    スワイプ ツールをクリックします。

  6. マップ ウィンドウで、[スワイプ] ツールをクリックして、マップ上で下にドラッグします。

    スワイプ ツールを使用してマップ上でクリックおよびドラッグします。

    スワイプ ツールを使用すると、選択したレイヤーの下にあるレイヤーを表示できます。

    [スワイプ] ツールは、選択したレイヤーを対話的に非表示にして、そのレイヤーの下にあるレイヤーを表示します。 このツールを使用すると、1 つ目の予測と 2 つ目の予測の違いを調査できます。

    バルト海周辺の違いに注目します。 最初のモデルでは、バルト海 (特にデンマークのコペンハーゲン周辺など) に海草生息地が存在する確率はとても低いと予測されました。 2 つ目のモデルでは、予測確率はこの地域で増加しました。 海草藻場はバルト海 (特にデンマーク周辺の保護された湾) で重要な二酸化炭素のホット スポットであるため、これは、新しいモデルのパフォーマンスの信頼性を高めるのに役立ちます。

    通常どおり、引き続きモデルの予測を調べて、米国沿岸水域外にある他に知られている海草の場所と比較することもできますが、このチュートリアルの目的では、モデルの共有に進む準備ができました。

MaxEnt を使用して世界中の沿岸エリアにおける海草生息地の分布を予測し、[Presence-only 予測] ツールを対話的に操作してパラメーターを調整し、モデルが適切に指定されたことを確認しました。 次に、モデルをドキュメント化して共有します。


モデルの共有

予測が完了し、結果が評価されたので、次のステップでは、モデリングの透明性を高め、再現しやすくします。 [Presence-only 予測] ツールの 2 回目の実行では、空間統計モデル (.ssm) ファイルを生成しました。

モデルを完全にドキュメント化して共有する準備ができるように、変数の説明と単位をこのファイルに追加します。 モデル ファイルを共有するかどうかにかかわらず、ドキュメント化されたモデルをレコード内に維持することにより、前の解析を呼び出して想定される入力変数と単位を把握し、モデルがどのように実行されたかを確認できます。 また、自分の地域で解析を複製したり高解像度データを使用してローカル エリアを解析したりすることで作業を構築する同僚など、他のユーザーとモデルを共有することもできます。

モデル ファイルのドキュメント化

モデル ファイルをドキュメント化するには、次の手順を実行します。

  1. [ジオプロセシング] ウィンドウで、戻る矢印をクリックし、検索ボックスに「describe spatial」と入力して、結果の [空間統計モデル ファイルの説明] をクリックします。

    空間統計モデル ファイルの説明ツールを検索して開きます。

  2. [入力モデル ファイル] で、参照ボタンをクリックして、[プロジェクト][フォルダー][SeagrassPrediction][p30] フォルダーを展開します。
  3. [seagrass_model.ssm] ファイルをクリックして、[OK] をクリックします。

    seagrass_model.ssm ファイルを参照して開きます。

    モデル タイプや予測対象変数など、モデルに関する基本情報を提供する情報メッセージが表示されます。

    モデルに関する情報

  4. [実行] をクリックします。
  5. ツールが完了したら、[詳細の表示] をクリックします。

    ツールの実行の詳細を表示します。

  6. [詳細] ウィンドウを展開して、その内容を確認します。

    モデル パラメーターの詳細

    モデルが作成された日付、モデルのタイプ、予測因子と応答、モデル特製と診断 ([AUC][オミッション率] など) を含むモデルに関する多数の詳細が提供されます。

    重要なのは、モデル ファイルでは入力位置と値が開示されないため、鳥類の絶滅危惧種の営巣地など、入力データの機密性が高い場合でもモデルを共有できます。

    予測対象変数と説明トレーニング ラスターの [説明] フィールドと [単位] フィールドの情報はありません。 各変数が表しているものとその単位を理解しないと、他のユーザーはこのモデルを利用することができません。 実際は摂氏単位で測定されている場合にこのモデルの温度が華氏単位で測定されたとユーザーが想定したとすると、予測が不正確になります。

    次に、この不足している情報を入力します。

  7. [詳細] ウィンドウを閉じます。
  8. [ジオプロセシング] ウィンドウで、戻る矢印をクリックし、検索ボックスに「set spatial statistics」と入力して、[空間統計モデル ファイル プロパティの設定] をクリックします。

    空間統計モデル ファイル プロパティの設定ツールを開きます。

  9. [入力モデル ファイル] で、参照ボタンをクリックして、[seagrass_model.ssm] ファイルをクリックし、[OK] をクリックします。

    モデルで使用される変数名とラスター名がリストされます。 [説明] ボックスと [単位] ボックスでは、モデルのドキュメントに情報を追加できます。

    モデル ファイルを参照します。

  10. [予測対象変数] セクションの [Presence-only] の下にある [説明] に「Seagrass habitat presence」と入力します。

    変数の説明

  11. [予測対象変数] セクションの [Presence-Only] の下にある [単位] に「None」と入力します。

    Presence-only の単位は None です。

  12. [説明トレーニング ラスター] セクションで、各変数の [説明][単位] に次のように入力します。
    • [EBK_DISSO2][説明]: Dissolved oxygen[単位]: ml/l
    • [EBK_NITRATE][説明]: Nitrates[単位]: μmol/l
    • [EBK_PHOSPHATE][説明]: Phosphates[単位]: μmol/l
    • [EBK_SALINITY][説明]: Salinity[単位]: None
    • [EBK_SILICATE][説明]: Silicates[単位]: μmol/l
    • [EBK_SRTM30][説明]: Depth[単位]: Meters
    • [EBK_TEMP][説明]: Temperature[単位]: °C

    説明トレーニング ラスターの説明情報

  13. ツールの上部にスクロールし、[入力モデル ファイル] ボックス内をクリックします。

    これにより、入力して変数の整合チェックが実行されます。 ツールの実行前にツールの整合チェックを実行しないと、これらの値が失われることがあります。

  14. [実行] をクリックします。
  15. [詳細の表示] をクリックします。

    空間統計モデル ファイル プロパティの設定ツールの詳細を表示します。

    ツールはフィールドが更新されたことをレポートします。

    説明と単位が更新されます。

  16. [詳細] ウィンドウを閉じます。
  17. ジオプロセシングの [履歴] から [空間統計モデル ファイルの説明] ツールをダブルクリックします。
  18. [実行] をクリックし、[詳細の表示] をクリックします。

    詳細が更新されます。

    変数の説明と単位が正しくドキュメント化され、モデル ファイルを電子メール、共有ドライブ、またはオンラインで共有する準備が整っていることを確認しました。 このモデル ファイルを維持して、今後、別の予測を実行したり、追加の予測を実行する他のユーザーと共有したりすることができます。 たとえば、この予測では Ecological Marine Units (EMU) 10 年間の平均 (50 年平均) データを使用しましたが、別の研究者は投影海洋計測値を使用して予測を行い、温暖化する海洋条件下で海草の分布がどのように変化するかを把握できます。

  19. [詳細] ウィンドウを閉じます。

このチュートリアルでは、トレーニング データを準備し、機械学習モデルを作成して、世界中の沿岸地域の海草生息地を予測しました。 また、成果を複製または拡張する他のユーザーと共有するようモデル ファイルをドキュメント化することで、解析の再現および拡張を可能にしました。 オープン サイエンスの利用促進は、海草とそれがサポートするエコシステムの場合も含め、保護活動を行う上で重要です。 このチュートリアルでは、海草のモデリングに簡略化されたアプローチを使用し、場合によっては、ツールのパラメーター設定を処理速度の面で最適化しました。 次のリソースは、海草生息地をモデル化する現実社会の取り組みに関する詳細な情報を提供します。

  • Aydin, Orhun, Carlos Osorio-Murillo, Kevin A. Butler, and Dawn Wright. 2022. "Conservation Planning Implications of Modeling Seagrass Habitats with Sparse Absence Data: A Balanced Random Forest Approach." Journal of Coastal Conservation 26 (3): 22. https://doi.org/10.1007/s11852-022-00868-1.
  • Bertelli, Chiara M., Holly J. Stokes, James C. Bull, and Richard K. F. Unsworth. 2022. "The Use of Habitat Suitability Modelling for Seagrass: A Review." Frontiers in Marine Science 9. https://www.frontiersin.org/articles/10.3389/fmars.2022.997831.
  • McKenzie, Len J., Lina M. Nordlund, Benjamin L. Jones, Leanne C. Cullen-Unsworth, Chris Roelfsema, and Richard K. F. Unsworth. 2020. "The Global Distribution of Seagrass Meadows." Environmental Research Letters 15 (7): 074041. https://doi.org/10.1088/1748-9326/ab7d06.
  • Wang, Ming, Yong Wang, Guangliang Liu, Yuhu Chen, and Naijing Yu. 2022. "Potential Distribution of Seagrass Meadows Based on the MaxEnt Model in Chinese Coastal Waters." Journal of Ocean University of China 21 (5): 1351–61. https://doi.org/10.1007/s11802-022-5006-2.