エージェント型 AI の次なるフロンティアを構築します。
概要
NVIDIA Vera Rubin NVL72 は、72 基の Rubin GPU、36 基の Vera CPU、ConnectX®-9 SuperNIC™、BlueField®-4 DPU など、NVIDIA の最先端テクノロジを統合しています。これは、NVIDIA NVLink™ 6 スイッチを搭載したラックスケール プラットフォームでインテリジェンスをスケールアップし、NVIDIA Quantum-X800 InfiniBand と Spectrum-X™ イーサネットでスケールアウトすることで、大規模な AI 産業革命を推進します。NVIDIA Groq 3 LPX ラックと共に導入すれば、Vera Rubin NVL72 は兆パラメーター モデルと数百万トークンのコンテキストに対して新たなクラスの推論パフォーマンスを実現します。
第 3 世代 NVIDIA MGX™ NVL72 ラック設計を基盤に構築された Vera Rubin NVL72 は、前世代からのシームレスな移行を実現します。NVIDIA Blackwell と比較して、4 分の 1 の GPU で AI トレーニングを行い、100 万トークンあたり 10 分の 1 のコストで AI 推論を実現します。ケーブルレスのモジュラー トレイ設計と 80 社を超える MGX エコシステム パートナーから提供されるサポートを備え、このラックスケール AI スーパーコンピューターは、世界標準のパフォーマンスと迅速な展開を実現します。
パフォーマンス
LLM 推論パフォーマンスは変更される場合があります。 32K/8K ISL/OSL を使用した Kimi-K2-Thinking モデルに基づく 100 万トークンあたりのコストを、NVIDIA GB200 NVL72 と NVIDIA Vera Rubin NVL72 を比較したものです。
NVIDIA Vera Rubin NVL72 は、NVIDIA GB200 NVL72 と比較して、高度にインタラクティブで深層リーズニング型のエージェント型 AI において 100 万トークンあたりのコストを 10 分の 1 に抑えます。
NVIDIA Vera Rubin NVL72 は、NVIDIA GB200 NVL72 と比較して、メガワットあたりで最大 10 倍のトークン数を実現し、同じ電力フットプリント内でインテリジェンスを拡張できます。
LLM 推論パフォーマンスは変更される場合があります。 NVIDIA GB200 NVL72 と NVIDIA Vera Rubin NVL72 を比較した 32K/8K ISL/OSL を使用した Kimi-K2 思考モデルに基づく MW あたり 1 秒あたりのトークン数。
パフォーマンスの予測値は変更される場合があります。NVIDIA GB200 NVL72 と NVIDIA Vera Rubin NVL72 を比較し、1 か月間の固定期間内に 100T トークンでトレーニングされた 10T MoE モデルを基盤とする GPU の数。
NVIDIA Vera Rubin NVL72 は、NVIDIA GB200 NVL72 と比較して 4 分の 1 の GPU 数で混合エキスパート (MoE) モデルをトレーニングします。
エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 AI ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキスト ウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin NVL72 は、1 兆パラメーター級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。
予測されるパフォーマンスは変更される可能性があります。無料プラン ($0): Qwen-3 (パラメーター数 2,350 億、KV キャッシュ トークン数 32,000)。ミディアム プラン ($3): Kimi K2.5 (パラメーター数 1 兆、KV キャッシュ トークン数 128,000。ハイ プラン ($6): GPT-MoE (2 兆パラメーター モデル、KV キャッシュ トークン数 128,000)。プレミアム プラン ($45) およびウルトラ プラン ($150) : GPT-MoE (2 兆パラメーター モデル、KV キャッシュ トークン数 400,000)。
AI エージェントの時代を推進
仕様¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| 構成 | 72 基の NVIDIA Rubin GPU | 36 基の NVIDIA Vera CPU | 2 基の NVIDIA Rubin GPU | 1 基の NVIDIA Vera CPU | 1 基の NVIDIA Rubin GPU |
| NVFP4 推論 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4² トレーニング | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6² トレーニング | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² | 18 POPS | 500 TOPS | 250 TOPS |
| FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU メモリ | 帯域幅 | 20.7 TB HBM4 | 1,580 TB/秒 | 576 GB HBM4 | 44 TB/秒 | 288 GB HBM4 | 22 TB/秒 |
| NVIDIA NVLink | 第 6 世代 | ||
| NVLink 帯域幅 | 260 TB/秒 (NVLink 6 スイッチ帯域幅) |
7.2 TB/秒 | 3.6 TB/秒 |
| NVLink-C2C 帯域幅 | 65 TB/秒 | 1.8 TB/秒 | - |
| CPU コア数 | 3,168 個のカスタム NVIDIA Olympus コア (Arm® 互換) | 88 個のカスタム NVIDIA Olympus コア (Arm® 互換) | - |
| CPU メモリ | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| ネットワーク帯域幅 (スケールアウト) | 28.8 TB/秒 | 0.8 TB/秒 | 0.4 TB/秒 |
| NVIDIA + HBM4 チップの合計 | 1,296 | 30 | 12 |
1. 速報値。すべての数値は変更される可能性があります
2. 密度仕様
3. Tensor Core ベースのエミュレーション アルゴリズムによるピーク パフォーマンス
今すぐ始める
NVIDIA から最新情報、お知らせなどをお届けします。