カレンダー モードでの将来の予約リクエストについて

このドキュメントでは、カレンダー モードでの将来の予約リクエストの概要について説明します。

カレンダー モードで将来の予約リクエストを使用して、需要の高いリソースを取得します(たとえば、GPU または TPU が割り当てられた仮想マシン(VM)インスタンスを作成するためのリソースなど)。 Google Cloud が予約リクエスト���承認すると、Compute Engine は指定された日時に最大 90 日間、予約済みリソースをプロビジョニングします。予約したリソースを使用して、次のワークロードを実行する GPU VM、H4D VM、または TPU VM を作成できます。

  • モデルの事前トレーニング ジョブ

  • モデルのファインチューニング ジョブ

  • ハイ パフォーマンス コンピューティング(HPC)シミュレーション ワークロード

  • 推論ワークロードの短期的な増加の見込み

Compute Engine でリソースを予約する他の方法の詳細については、予約の種類を選択するをご覧ください。

カレンダー モードでリクエストを作成する

以降のセクションでは、リソースの可用性を表示する方法と、カレンダー モードで将来の予約リクエストを作成するときに指定する詳細について説明します。

リソースの将来の可用性を確認する

カレンダー モードで将来の予約リクエストを作成する前に、次のリソースについて、リージョン内の将来の可用性を確認できます。

  • GPU VM または H4D VM の場合: 最大 60 日前

  • TPU の場合: 最大 120 日前

Compute Engine は、Dynamic Workload Scheduler(DWS)を使用して、リクエストしたリソースがいつ使用可能になるかを確認します。リクエストを作成するときに、使用可能であることを確認したリソースの数、タイプ、予約期間を指定します。この情報を提供すると、 Google Cloud がリクエストを承認する可能性が高くなります。

リクエストのプロパティを定義する

カレンダー モードで将来の予約リクエストを作成する場合は、次のプロパティを指定する必要があります。

  • 自動削除: このプロパティは、リクエストに対して自動的に作成された予約(自動作成予約)を、たとえその予約が完全に使用されていなくても、終了時刻に Compute Engine が削除するかどうかを決定します。カレンダー モードでリクエストを作成するには、自動削除オプションを有効にする必要があります。

  • 使用タイプ。このプロパティは、VM が自動作成予約を使用する方法を定義します。カレンダー モードでリクエストを作成する場合は、明示的に対象となる予約を作成することを指定する必要があります。この設定は、その予約を対象とする VM のみが予約を使用できることを意味します。

  • デプロイタイプ: このプロパティは、予約済みリソースのコロケーションを定義します。Compute Engine は、リソースタイプに基づいてリソースを予約します。

    • GPU VM または H4D VM の場合は、リクエストを作成するときに高密度(DENSE)デプロイタイプを指定する必要があります。この構成では、ネ��トワーク レイテンシを最小限に抑えるためにリソースを密に予約するように指定します。

    • TPU の場合、Compute Engine はデフォルトでフレキシブル(FLEXIBLE)デプロイタイプを使用します。この構成では、ベスト エフォート ベースで可能な限り近接したリソースを予約するように指定します。

  • name:リクエスト名。プロジェクト内で一意にする必要があります。

  • リソース数。リクエストされた開始時刻に予約する GPU VM、H4D VM、または TPU の数。

  • 計画ステータス。このプロパティは、リクエストをすぐに Google Cloud に送信して審査を受けるか、下書きとして保存して後で送信するかを定義します。カレンダー モードでリクエストを作成する場合は、審査のリクエストをすぐに送信するように指定する必要があります。

  • 予約モード: このプロパティは、リソースを予約する方法を定義します。カレンダー モードのリクエストでは、CALENDAR に設定する必要があります。

  • 予約名: Google Cloud がリクエストを承認した場合に Compute Engine が自動作成する予約の名前。

  • 共有タイプ: このプロパティは、組織内の他のプロジェクトが承認済みリクエスト用の自動作成予約を使用できるかどうかを定義します。次のいずれかのオプションを指定できます。

    • 単一のプロジェクト。自分のプロジェクトだけが予約済みの容量を使用できます。

    • 共有。予約した容量は、組織内の他の最大 100 個のプロジェクトと共有できます。このオプションを指定する場合は、自動作成予約を共有するプロジェクトを指定する必要があります。詳細については、共有予約のベスト プラクティスをご覧ください。

  • 予約期間: リクエストされた容量を Compute Engine がプロビジョニングし、ユーザーがそれを使用できるようになる日時。予約期間には次の項目が含まれます。

    • 開始時刻: 予約済み容量の使用を開始する時刻。予約するリソースに基づいて、開始時刻は、リクエストを作成して送信した時点から次の 1 つ以上の値で指定する必要があります。

      • GPU VM と H4D VM の場合: 87 時間(3 日と 15 時間)

      • TPU の場合: 6 時間

    • 終了時刻: リクエストした容量の予約が解除される時刻。この時点で、Compute Engine は自動作成予約を削除し、VM に指定した終了アクションに基づいて、予約を使用する VM を停止または削除します。

  • リソース プロパティ。予約する GPU VM、H4D VM、または TPU のハードウェア要件。VM は、プロパティが予約のプロパティと一致する場合にのみ、予約を使用できます。詳細については、予約を使用するための要件をご覧ください。

  • ワークロード タイプ: TPU v5e を予約する場合は、以下のように、ワークロード タイプに基づいて容量を予約する方法を指定する必要があります。

    • バッチ。単一または複数のオペレーションで大量のデータを処理するワークロード(機械学習(ML)トレーニング ワークロードなど)の場合。

    • サービング: 同時リクエストを処理し、ネットワーク レイテンシを最小限に抑える必要があるワークロード(ML 推論ワークロードなど)の場合。

  • ゾーン。容量を予約するゾーン。

リクエスト審査プロセス

カレンダー モードで将来の予約リクエストを使用して容量を予約するには、リクエストを作成して Google Cloud に送信し、審査を受ける必要があります。リクエストを作成して送信すると、 Google Cloud が 1 分以内にリクエストを審査し、次のいずれかの処理が行われます。

  • Google Cloud がリクエストを承認する: Compute Engine がリクエストされたリソースを予約し、承認後 1 分以内に空の予約を自動的に作成します。リクエストの開始時刻になると、Compute Engine は予約内の GPU VM、H4D VM、または TPU の数を増やして、リクエストされた容量をプロビジョニングします。

  • エラーが発生する: リクエストのゾーンに十分なリソースがないため、このリクエストは失敗します。将来のリソースの可用性を再度確認してから、新しいリクエストを作成して送信し、審査を受けることをおすすめします。

リクエスト ライフサイクル

次の図は、Compute Engine がカレンダー モードで将来の予約リクエストを設定できるさまざまな状態を示しています。

カレンダー モードで将来の予約リクエストが移行するさまざまな状態を示すフローチャート。

上の図に示されている状態とイベントのフローは次のとおりです。

  • PENDING_APPROVAL: 審査のリクエストを作成して送信しました。1 分以内に、 Google Cloud がリクエストを承認します。

  • APPROVED: Google Cloud がリクエストを承認しました。1 分以内に、Compute Engine が自動的に空の予約を作成し、リクエストの状態を PROCURING に変更します。

  • PROCURING: Compute Engine が予約済みリソースのプロビジョニングをスケジュールします。リクエストの開始時刻の前に、リクエストの状態が PROVISIONING に変わります。

  • PROVISIONING: Compute Engine は、自動作成予約内の予約済み GPU VM、H4D VM、または TPU の数を増やして、予約済みリソースをプロビジョニングしています。リクエストの開始時刻になると、リクエストの状態が FULFILLED に変わります。

  • FULFILLED: Compute Engine が予約済みリソースをプロビジョニングしました。その料金が請求されます。リクエストの終了時刻まで VM を作成することで、自動作成予約を使用できます。

リクエストの終了時に、Compute Engine はリクエストおよび自動作成予約を削除します。また、VM に指定した終了アクションに基づいて、予約を使用している VM を停止または削除します。

プロビジョニングされた容量を使用する

Google Cloud がカレンダー モードで将来の予約リクエストを承認すると、Compute Engine は次の特性を持つ予約を自動的に作成します。

  • 自動作成予約には予約済みの GPU VM、H4D VM、または TPU がないため、まだ使用できません。

  • 自動作成予約は、リクエストで指定された VM または TPU のプロパティを継承します。

リクエストの開始時刻になると、Compute Engine は自動作成予約内の GPU VM、H4D VM、または TPU の数を増やして、リクエストされた容量をプロビジョニングします。その後、次の条件をすべて満たす GPU VM、H4D VM、または TPU VM を作成することで予約を使用できます。

予約がすべて使用されるまで、またはリクエストの終了時刻まで、VM を作成できます。リクエストの終了時に、Compute Engine は自動作成予約を削除し、予約を使用する VM を停止または削除します。

割り当て

カレンダー モードの将来の予約リクエストでは、予約にバインドされたプロビジョニング モデルを使用する必要があります。このモデルでは、リソースを���約するための Compute Engine の割り当ては必要ありません。ただし、リクエストを作成する前に、VM の作成時に予約に含まれていないリソース(ディスクや IP アドレスなど)に十分な割り当てがあることを確認してください。

料金

カレンダー モードで将来の予約リクエストを作成して送信し、Google Cloud がリクエストを承認しても、直ちに料金が発生することはありません。代わりに、次の場合に料金が発生します。

  • Compute Engine がリクエストされた容量をプロビジョニングする場合。リクエストの開始時刻にリクエストが FULFILLED 状態になると、DWS の料金に従って、プロビジョニングされたリソースについて課金されます。この料金モデルでは、標準料金と比較して vCPU、メモリ、GPU、TPU が割引価格で提供されます。

  • 予約対象以外のリソースを使用する場合。自動作成予約を使用する VM を作成する場合、使用されたリソースに対して追加料金は発生しません。ディスクや IP アドレスなど、予約の一部ではないリソースに対してのみ課金されます。

リクエストの終了時刻に、予約済みリソースに対する課金は停止されます。この時点で、Compute Engine は自動作成予約を削除し、終了アクションに基づいて予約を使用する VM を停止または削除します。

制限事項

以降のセクションでは、カレンダー モードでの将来の予約リクエストに対する制限事項について説明します。

すべてのリクエストに対する制限事項

カレンダー モードでの将来の予約リクエストには、次の制限があります。

  • リソースは 1~90 日間の期間で予約できます。

  • 作成して送信したリクエストをキャンセル、削除、変更することはできません。

VM のリクエストに対する制限事項

GPU VM または H4D VM は、次の制限の下でのみ予約できます。

  • リクエストごとに予約できる VM の数は次のとおりです。

    • GPU VM の場合は、1~80 個の VM

    • H4D VM の場は、1~256 個の VM

  • 次のマシンシリーズを予約できます。

  • 特定のゾーンでのみ GPU VM を予約できます。H4D を利用できるリージョンについては、使用可能なリージョンとゾーンをご覧ください。マシンシリーズ フィルタを使用して、H4D インスタンスを予約できるゾーンのみを表示します。

  • インスタンス テンプレートを使用して GPU VM または H4D VM のリクエストを作成することはできません。

TPU のリクエストに対する制限事項

次の方法でのみ TPU を予約できます。

  • リクエストごとに予約できる TPU チップの個数は、1、4、8、16、32、64、128、256、512、1,024 です。

  • 予約できる TPU バージョンは次のとおりです。

  • サービング(SERVING)ワークロード タイプで予約できる TPU v5e チップは 1 個、4 個、8 個のみです。

  • 次のゾーンでのみ TPU を予約できます。

    • TPU7x:

      • us-central1-c
    • TPU v6e:

      • asia-northeast1-b

      • europe-west4-a

      • us-east5-a

      • us-east5-b

    • TPU v5p:

      • us-east5-a
    • TPU v5e:

      • バッチ(BATCH)ワークロード タイプの場合:

        • europe-west4-b

        • us-west4-b

      • サービング(SERVING)ワークロード タイプの場合:

        • us-south1-a

すべての自動作成予約に関する制限事項

リクエスト用の自動作成予約には、次の制限があります。

  • 予約を変更できるのは、次の場合に限られます。

    • Vertex AI ジョブが予約を使用することを許可または禁止する場合。

    • 予約開始時刻をすぎている場合。

  • 確約利用割引(CUD)または継続利用割引(SUD)を予約に適用することはできません。

  • 予約を削除することはできません。予約の終了時に Compute Engine が予約を削除します。

次のステップ