MLPerf-Benchmarks

Die NVIDIA KI-Plattform erzielt erstklassige Leistung und Vielseitigkeit sowohl im Training als auch in der Inferenz, was durch extremes Co-Design ermöglicht wird.

Was ist MLPerf?

MLPerf-Benchmarks sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Diese Bewertungen werden von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Branche, entwickelt, und werden alle unter vorgeschriebenen Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.

Innerhalb der MLPerf-Benchmarks

MLPerf Inference v6.0 misst die Inferenzleistung über eine Vielzahl von Modellarchitekturen hinweg, darunter große Sprachmodelle (LLMs) mit Dense und Mixture-of-Expert (MoE), visuelle Sprachmodelle, Text-to-Video-Modelle, generative Empfehlungsgeber und mehr.

MLPerf Training v6.0 misst die Zeit zum Trainieren von Modellen auf einer bestimmten Qualitätsstufe über verschiedene Modelltypen hinweg, einschließlich LLMs, Text-to-Image und Empfehlungssystemen.

Reasoning-LLMs

KI-Modelle, die intermediäre „denkende“ Token generieren, um die Reaktionsgenauigkeit zu verbessern.

Details

Vision Language-Modelle

Multimodale, generative KI-Modelle, die Video, Bild und Text verstehen und verarbeiten können.

Details

(LLMs)

Deep Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und Inhalte für eine Vielzahl von Anwendungsfällen erkennen, zusammenfassen, übersetzen, vorhersagen und generieren können.

Details

Text-zu-Video

Generative KI-Modelle, die Videoausgaben auf der Grundlage von Texteingaben generieren.

Details

Text-to-Image

Generiert Bilder auf der Grundlage von Text-Prompts.

Details

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln wie beispielsweise Produkte oder Anzeigen analysiert werden.

Details

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.

Details

Sprache-zu-Text

Wandelt gesprochene Sprache in geschriebenen Text um.

Details

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.

Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.

NVIDIA MLPerf-Benchmark-Ergebnisse

Die NVIDIA-Plattform zeichnete sich durch die kürzeste Trainingszeit und höchste Leistung pro GPU in MLPerf Training v6-Benchmarks aus. In dieser Runde reichte NVIDIA Ergebnisse sowohl für GB200 NVL72- als auch für GB300 NVL72-Systeme ein. Bei gleichem Maßstab ermöglichte GB300 NVL72 ein bis zu 1,6-mal schnelleres Training als GB200 NVL72. Diese Runde wurde um zwei neue MoE-Pre-Training-Workloads erweitert: DeepSeek-V3 671B und GPT-OSS-20B. Bei beiden Workloads stellte NVIDIA Leistungsrekorde auf. Auf DeepSeek-V3 671B skalierte NVIDIA auf 8.192 GPUs mit GB200 NVL72-Systemen, der bisher größten NVIDIA Blackwell-basierten Einreichung in MLPerf Training.

NVIDIA Blackwell-Plattform legt die Messlatte für Leistung und Skalierbarkeit höher

MLPerfTraining v5.0, v5.1 und v6.0 Ergebnisse abgerufen von www.mlcommons.org am 16. Juni 2026. MLPerf-GPU-Skalierungsergebnisse aus den Einträgen 5.0-0004, 5.1-004, 6.0-0001, 6.0-0005 und 6.0-0014. MLPerf Blackwell-Trainingsvergleich aus den folgenden Einträgen: 6.0-0006, 6.0-0013, 6.0-0017, 6.0-0018, 6.0-0078 und 5.1-0072. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Jährlicher Rhythmus und Extreme Co-Design für nachhaltige Führungsrolle im Training

Die NVIDIA-Plattform ermöglichte bei jedem MLPerf Training v6 Benchmark die schnellsten Trainingszeiten. Innovationen in den Bereichen Chips, Systeme und Software ermöglichten eine nachhaltige Führungsrolle bei der Trainingsleistung, wie branchenweit anerkannte und von Experten geprüfte Leistungsdaten zeigen.

Leistung in maximaler Größe

Benchmark Zeit zum Trainieren
DeepSeek-v3 671B 2,02 Minuten
GPT-OSS-20B 7,43 Minuten
Llama 3.1 405B 7,07 Minuten
Llama 2 70B LoRA 0,40 Minuten
Llama 3.1 8B 4,46 Minuten
FLUX.1 17,1 Minuten
DLRM-DCNv2 0,67 Minuten

MLPerf™ Training v6.0 am 16. Juni 2026 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 6.0-0001, 6.0-0005, 6.0-0015, 6.0-0062, 6.0-0100 und 6.0-0101. Der Name und das Logo MLPerf sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

NVIDIA bietet höchste Inferenzleistung und unübertroffene Vielseitigkeit

NVIDIA Blackwell Ultra-GPUs lieferten bei MLPerf Inference v6.0 die leistungsstärksten Ergebnisse über das breiteste Spektrum an Modellen und Szenarien hinweg, und nur die NVIDIA-Plattform hat bei jedem neu hinzugefügten Benchmark Ergebnisse vorlegen können. Allein durch Software-Optimierungen stieg der Durchsatz des GB300 NVL72 in nur einer Runde um bis zu das 2,7-Fache, wodurch die Kosten pro Million Token gesenkt wurden. Und zum ersten Mal legte NVIDIA MLPerf-Inferenzergebnisse mit 288 Blackwell Ultra-GPUs in vier GB300 NVL72-Systemen vor, die mit NVIDIA Quantum-X800 InfiniBand verbunden waren – der größte Umfang an Ergebnissen, der jemals in der Geschichte des Benchmarks erzielt wurde. Dies lieferte einen Rekorddurchsatz bei der Reasoning-Inferenz von 2,5 Millionen Token pro Sekunde.

MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Leistung pro Chip wurde ermittelt, indem der Gesamtdurchsatz durch die Anzahl der gemeldeten Chips geteilt wurde. Die Leistung pro Chip ist keine primäre Metrik von MLPerf Inference v5.1 oder v6.0. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Höherer Token-Durchsatz und geringere Token-Kosten durch Software-Optimierung

MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Token-Kosten sind keine offizielle MLPerf-Metrik. Die Baseline ist der Kehrwert des gemeldeten Token-Durchsatzes; Februar 2026 wird abgeleitet, indem der Kehrwert des gemeldeten Token-Durchsatzes durch die Baseline dividiert wird. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org

NVIDIA GB300 NVL72 und NVIDIA Quantum-X800 InfiniBand ermöglichen die bisher größte MLPerf-Inferenz-Einreichung

Rekordniveau

288 NVIDIA Blackwell Ultra GPUs 

Höchster Token-Durchsatz

Bis zu 2,5 Millionen Token/Sekunde DeepSeek-R11

MLPerf Inference v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. Die NVIDIA-Plattform ergibt sich aus den folgenden Einträgen: 6.0-0076. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

1 Offline-Szenario

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

NVIDIA Dynamo ist ein verteiltes Open-Source-Inferenz-Serving-Framework, um Modelle in Multi-Knoten-Umgebungen im KI-Fabrikmaßstab bereitzustellen. Es optimiert die verteilte Bereitstellung durch Disaggregation der Inferenz, Optimierung des Routing und Erweiterung des Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.

Dynamo arbeitet durch die Disaggregation (Trennung) der Prefill- und Decodierungsphasen der LLM-Inferenz über verschiedene GPUs hinweg, was eine unabhängige Optimierung und einen höheren Durchsatz ermöglicht. Es war in den MLPerf Inference v5.1 Benchmarks prominent vertreten und zeigte eine überragende Leistung in Llama 3.1 405B Interactive und DeepSeek-R1 Reasoning-Tests.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung, unterstützt durch die NVIDIA Blackwell- und Blackwell Ultra-Plattformen, einschließlich der NVIDIA GB300 NVL72 und GB200 NVL72-Systeme, NVLink und NVLink Switch, NVIDIA Quantum InfiniBand und NVIDIA Spectrum-X Ethernet-Scale-out-Netzwerke. Diese stehen im Mittelpunkt von KI-Fabriken, die von der NVIDIA-Rechenzentrumsplattform unterstützt werden, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen. 

Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.

Reasoning-LLMs

MLPerf Inferenz verwendet: 

DeepSeek-R1 mit Samples aus den Datensätzen AIME, MATH500, GPQA Diamond, MMLU-Pro und LiveCodeBench.

GPT-OSS-120B mit Beispielen aus den Datensätzen AIME 2024, LivecodeBench v6 und GPQA Diamond.

Vision Language Model

MLPerf Inference nutzt das Qwen3-VL-235B-A22B-Instruct-Modell mit dem Shopify-Produktkatalog-Datensatz.

(LLMs)

MLPerf Inference verwendet:

 Llama 3.1 405B mit Beispielen aus LongBench, LongDataCollection, RULER und GovReport-Zusammenfassung. Llama 2 70B nutzt OpenOrca. Llama 3.1 8B nutzt CNN/DailyMail. Mixtral 8x7B mit Samples aus OpenOrca, GSM8K und MBXP-Datensätzen.

MLPerf Training verwendet:

Das generative Sprachmodell Llama 3.1 mit 405 Milliarden Parametern und einer Sequenzlänge von 8.192 für den LLM-Pre-Training-Workload mit dem c4 (v3.0.1)-Datensatz. Für den LLM-Feinabstimmungstest verwendet es das Llama 2 70B Modell mit dem GovReport-Datensatz mit Sequenzlängen von 8.192. Llama 3.1 8B verwendet auch den C4-Datensatz mit Sequenzlängen von 8.192.

Text-zu-Video

MLPerf Inferenz nutzt Wan-2.2-T2V-A14B mit dem VBench-Datensatz.

Text-to-Image

MLPerf Training nutzt das FLUX.1 Text-to-Image-Modell, das auf dem CC12M-Datensatz mit dem COCO 2014-Datensatz für die Evaluierung trainiert wurde.

Empfehlung

MLPerf Inferenz nutzt DLRMv3 mit einem synthetischen Streaming-Datensatz von 100B.

MLPerf Training und Inference verwenden das Deep Learning Recommendation Model v2 (DLRMv2), welches das DCNv2-Cross-Layer und einen aus dem Criteo-Datensatz synthetisierten Multi-Hot-Datensatz anwendet.

Neuronales Netzwerk für Graphen

MLPerf Inference nutzt den heterogenen Datensatz von Illinois Graph Benchmark (IGB).

MLPerf Training verwendet R-GAT mit dem Illinois Graph Benchmark (IGB) – Heterogener Datensatz.

Sprache-zu-Text

MLPerf Inference verwendet Whisper-Large-V3 mit dem LibriSpeech-Datensatz.

Server

4x

Offline

3,7x

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s