MLPerf-Benchmarks sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Diese Bewertungen werden von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Branche, entwickelt, und werden alle unter vorgeschriebenen Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.
MLPerf Inference v6.0 misst die Inferenzleistung über eine Vielzahl von Modellarchitekturen hinweg, darunter große Sprachmodelle (LLMs) mit Dense und Mixture-of-Expert (MoE), visuelle Sprachmodelle, Text-to-Video-Modelle, generative Empfehlungsgeber und mehr.
MLPerf Training v6.0 misst die Zeit zum Trainieren von Modellen auf einer bestimmten Qualitätsstufe über verschiedene Modelltypen hinweg, einschließlich LLMs, Text-to-Image und Empfehlungssystemen.
NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.
Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.
Die NVIDIA-Plattform zeichnete sich durch die kürzeste Trainingszeit und höchste Leistung pro GPU in MLPerf Training v6-Benchmarks aus. In dieser Runde reichte NVIDIA Ergebnisse sowohl für GB200 NVL72- als auch für GB300 NVL72-Systeme ein. Bei gleichem Maßstab ermöglichte GB300 NVL72 ein bis zu 1,6-mal schnelleres Training als GB200 NVL72. Diese Runde wurde um zwei neue MoE-Pre-Training-Workloads erweitert: DeepSeek-V3 671B und GPT-OSS-20B. Bei beiden Workloads stellte NVIDIA Leistungsrekorde auf. Auf DeepSeek-V3 671B skalierte NVIDIA auf 8.192 GPUs mit GB200 NVL72-Systemen, der bisher größten NVIDIA Blackwell-basierten Einreichung in MLPerf Training.
MLPerfTraining v5.0, v5.1 und v6.0 Ergebnisse abgerufen von www.mlcommons.org am 16. Juni 2026. MLPerf-GPU-Skalierungsergebnisse aus den Einträgen 5.0-0004, 5.1-004, 6.0-0001, 6.0-0005 und 6.0-0014. MLPerf Blackwell-Trainingsvergleich aus den folgenden Einträgen: 6.0-0006, 6.0-0013, 6.0-0017, 6.0-0018, 6.0-0078 und 5.1-0072. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
Die NVIDIA-Plattform ermöglichte bei jedem MLPerf Training v6 Benchmark die schnellsten Trainingszeiten. Innovationen in den Bereichen Chips, Systeme und Software ermöglichten eine nachhaltige Führungsrolle bei der Trainingsleistung, wie branchenweit anerkannte und von Experten geprüfte Leistungsdaten zeigen.
| Benchmark | Zeit zum Trainieren |
|---|---|
| DeepSeek-v3 671B | 2,02 Minuten |
| GPT-OSS-20B | 7,43 Minuten |
| Llama 3.1 405B | 7,07 Minuten |
| Llama 2 70B LoRA | 0,40 Minuten |
| Llama 3.1 8B | 4,46 Minuten |
| FLUX.1 | 17,1 Minuten |
| DLRM-DCNv2 | 0,67 Minuten |
MLPerf™ Training v6.0 am 16. Juni 2026 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 6.0-0001, 6.0-0005, 6.0-0015, 6.0-0062, 6.0-0100 und 6.0-0101. Der Name und das Logo MLPerf sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
NVIDIA Blackwell Ultra-GPUs lieferten bei MLPerf Inference v6.0 die leistungsstärksten Ergebnisse über das breiteste Spektrum an Modellen und Szenarien hinweg, und nur die NVIDIA-Plattform hat bei jedem neu hinzugefügten Benchmark Ergebnisse vorlegen können. Allein durch Software-Optimierungen stieg der Durchsatz des GB300 NVL72 in nur einer Runde um bis zu das 2,7-Fache, wodurch die Kosten pro Million Token gesenkt wurden. Und zum ersten Mal legte NVIDIA MLPerf-Inferenzergebnisse mit 288 Blackwell Ultra-GPUs in vier GB300 NVL72-Systemen vor, die mit NVIDIA Quantum-X800 InfiniBand verbunden waren – der größte Umfang an Ergebnissen, der jemals in der Geschichte des Benchmarks erzielt wurde. Dies lieferte einen Rekorddurchsatz bei der Reasoning-Inferenz von 2,5 Millionen Token pro Sekunde.
MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Leistung pro Chip wurde ermittelt, indem der Gesamtdurchsatz durch die Anzahl der gemeldeten Chips geteilt wurde. Die Leistung pro Chip ist keine primäre Metrik von MLPerf Inference v5.1 oder v6.0. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Token-Kosten sind keine offizielle MLPerf-Metrik. Die Baseline ist der Kehrwert des gemeldeten Token-Durchsatzes; Februar 2026 wird abgeleitet, indem der Kehrwert des gemeldeten Token-Durchsatzes durch die Baseline dividiert wird. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org
288 NVIDIA Blackwell Ultra GPUs
Bis zu 2,5 Millionen Token/Sekunde DeepSeek-R11
MLPerf Inference v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. Die NVIDIA-Plattform ergibt sich aus den folgenden Einträgen: 6.0-0076. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
1 Offline-Szenario
Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.
NVIDIA Dynamo ist ein verteiltes Open-Source-Inferenz-Serving-Framework, um Modelle in Multi-Knoten-Umgebungen im KI-Fabrikmaßstab bereitzustellen. Es optimiert die verteilte Bereitstellung durch Disaggregation der Inferenz, Optimierung des Routing und Erweiterung des Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.
Dynamo arbeitet durch die Disaggregation (Trennung) der Prefill- und Decodierungsphasen der LLM-Inferenz über verschiedene GPUs hinweg, was eine unabhängige Optimierung und einen höheren Durchsatz ermöglicht. Es war in den MLPerf Inference v5.1 Benchmarks prominent vertreten und zeigte eine überragende Leistung in Llama 3.1 405B Interactive und DeepSeek-R1 Reasoning-Tests.
Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung, unterstützt durch die NVIDIA Blackwell- und Blackwell Ultra-Plattformen, einschließlich der NVIDIA GB300 NVL72 und GB200 NVL72-Systeme, NVLink und NVLink Switch, NVIDIA Quantum InfiniBand und NVIDIA Spectrum-X Ethernet-Scale-out-Netzwerke. Diese stehen im Mittelpunkt von KI-Fabriken, die von der NVIDIA-Rechenzentrumsplattform unterstützt werden, der Engine hinter unserer Benchmark-Leistung.
Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.
Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.