MLPerf-Benchmarks

Die NVIDIA KI-Plattform erzielt erstklassige Leistung und Vielseitigkeit sowohl im Training als auch in der Inferenz, was durch extremes Co-Design ermöglicht wird.

Unsere Ergebnisse

Was ist MLPerf?

MLPerf-Benchmarks sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Diese Bewertungen werden von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Branche, entwickelt, und werden alle unter vorgeschriebenen Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.

Innerhalb der MLPerf-Benchmarks

MLPerf Inference v6.0 misst die Inferenzleistung über eine Vielzahl von Modellarchitekturen hinweg, darunter große Sprachmodelle (LLMs) mit Dense und Mixture-of-Expert (MoE), visuelle Sprachmodelle, Text-to-Video-Modelle, generative Empfehlungsgeber und mehr.

MLPerf Training v6.0 misst die Zeit zum Trainieren von Modellen auf einer bestimmten Qualitätsstufe über verschiedene Modelltypen hinweg, einschließlich LLMs, Text-to-Image und Empfehlungssystemen.

Reasoning-LLMs

KI-Modelle, die intermediäre „denkende“ Token generieren, um die Reaktionsgenauigkeit zu verbessern.

Details

Vision Language-Modelle

Multimodale, generative KI-Modelle, die Video, Bild und Text verstehen und verarbeiten können.

Details

(LLMs)

Deep Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und Inhalte für eine Vielzahl von Anwendungsfällen erkennen, zusammenfassen, übersetzen, vorhersagen und generieren können.

Details

Text-zu-Video

Generative KI-Modelle, die Videoausgaben auf der Grundlage von Texteingaben generieren.

Details

Text-to-Image

Generiert Bilder auf der Grundlage von Text-Prompts.

Details

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln wie beispielsweise Produkte oder Anzeigen analysiert werden.

Details

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.

Details

Sprache-zu-Text

Wandelt gesprochene Sprache in geschriebenen Text um.

Details

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.

Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.

Entdecken Sie wichtige Ergebnisse

NVIDIA MLPerf-Benchmark-Ergebnisse

Schulungen
Inferenz

Die NVIDIA-Plattform zeichnete sich durch die kürzeste Trainingszeit und höchste Leistung pro GPU in MLPerf Training v6-Benchmarks aus. In dieser Runde reichte NVIDIA Ergebnisse sowohl für GB200 NVL72- als auch für GB300 NVL72-Systeme ein. Bei gleichem Maßstab ermöglichte GB300 NVL72 ein bis zu 1,6-mal schnelleres Training als GB200 NVL72. Diese Runde wurde um zwei neue MoE-Pre-Training-Workloads erweitert: DeepSeek-V3 671B und GPT-OSS-20B. Bei beiden Workloads stellte NVIDIA Leistungsrekorde auf. Auf DeepSeek-V3 671B skalierte NVIDIA auf 8.192 GPUs mit GB200 NVL72-Systemen, der bisher größten NVIDIA Blackwell-basierten Einreichung in MLPerf Training.

NVIDIA Blackwell-Plattform legt die Messlatte für Leistung und Skalierbarkeit höher

MLPerfTraining v5.0, v5.1 und v6.0 Ergebnisse abgerufen von www.mlcommons.org am 16. Juni 2026. MLPerf-GPU-Skalierungsergebnisse aus den Einträgen 5.0-0004, 5.1-004, 6.0-0001, 6.0-0005 und 6.0-0014. MLPerf Blackwell-Trainingsvergleich aus den folgenden Einträgen: 6.0-0006, 6.0-0013, 6.0-0017, 6.0-0018, 6.0-0078 und 5.1-0072. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Jährlicher Rhythmus und Extreme Co-Design für nachhaltige Führungsrolle im Training

Die NVIDIA-Plattform ermöglichte bei jedem MLPerf Training v6 Benchmark die schnellsten Trainingszeiten. Innovationen in den Bereichen Chips, Systeme und Software ermöglichten eine nachhaltige Führungsrolle bei der Trainingsleistung, wie branchenweit anerkannte und von Experten geprüfte Leistungsdaten zeigen.

Leistung in maximaler Größe

Benchmark	Zeit zum Trainieren
DeepSeek-v3 671B	2,02 Minuten
GPT-OSS-20B	7,43 Minuten
Llama 3.1 405B	7,07 Minuten
Llama 2 70B LoRA	0,40 Minuten
Llama 3.1 8B	4,46 Minuten
FLUX.1	17,1 Minuten
DLRM-DCNv2	0,67 Minuten

MLPerf™ Training v6.0 am 16. Juni 2026 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 6.0-0001, 6.0-0005, 6.0-0015, 6.0-0062, 6.0-0100 und 6.0-0101. Der Name und das Logo MLPerf sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

NVIDIA bietet höchste Inferenzleistung und unübertroffene Vielseitigkeit

NVIDIA Blackwell Ultra-GPUs lieferten bei MLPerf Inference v6.0 die leistungsstärksten Ergebnisse über das breiteste Spektrum an Modellen und Szenarien hinweg, und nur die NVIDIA-Plattform hat bei jedem neu hinzugefügten Benchmark Ergebnisse vorlegen können. Allein durch Software-Optimierungen stieg der Durchsatz des GB300 NVL72 in nur einer Runde um bis zu das 2,7-Fache, wodurch die Kosten pro Million Token gesenkt wurden. Und zum ersten Mal legte NVIDIA MLPerf-Inferenzergebnisse mit 288 Blackwell Ultra-GPUs in vier GB300 NVL72-Systemen vor, die mit NVIDIA Quantum-X800 InfiniBand verbunden waren – der größte Umfang an Ergebnissen, der jemals in der Geschichte des Benchmarks erzielt wurde. Dies lieferte einen Rekorddurchsatz bei der Reasoning-Inferenz von 2,5 Millionen Token pro Sekunde.

MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Leistung pro Chip wurde ermittelt, indem der Gesamtdurchsatz durch die Anzahl der gemeldeten Chips geteilt wurde. Die Leistung pro Chip ist keine primäre Metrik von MLPerf Inference v5.1 oder v6.0. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Höherer Token-Durchsatz und geringere Token-Kosten durch Software-Optimierung

MLPerf Inferenz v5.1 und v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. NVIDIA-Plattformergebnisse aus den folgenden Einträgen: 5.1-0072 und 6.0-0082. Die Token-Kosten sind keine offizielle MLPerf-Metrik. Die Baseline ist der Kehrwert des gemeldeten Token-Durchsatzes; Februar 2026 wird abgeleitet, indem der Kehrwert des gemeldeten Token-Durchsatzes durch die Baseline dividiert wird. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org

NVIDIA GB300 NVL72 und NVIDIA Quantum-X800 InfiniBand ermöglichen die bisher größte MLPerf-Inferenz-Einreichung

Rekordniveau

288 NVIDIA Blackwell Ultra GPUs

Höchster Token-Durchsatz

Bis zu 2,5 Millionen Token/Sekunde DeepSeek-R1¹

MLPerf Inference v6.0, Closed Division. Ergebnisse abgerufen von www.mlcommons.org am 1. April 2026. Die NVIDIA-Plattform ergibt sich aus den folgenden Einträgen: 6.0-0076. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

¹Offline-Szenario

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

NVIDIA Dynamo ist ein verteiltes Open-Source-Inferenz-Serving-Framework, um Modelle in Multi-Knoten-Umgebungen im KI-Fabrikmaßstab bereitzustellen. Es optimiert die verteilte Bereitstellung durch Disaggregation der Inferenz, Optimierung des Routing und Erweiterung des Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.

Dynamo arbeitet durch die Disaggregation (Trennung) der Prefill- und Decodierungsphasen der LLM-Inferenz über verschiedene GPUs hinweg, was eine unabhängige Optimierung und einen höheren Durchsatz ermöglicht. Es war in den MLPerf Inference v5.1 Benchmarks prominent vertreten und zeigte eine überragende Leistung in Llama 3.1 405B Interactive und DeepSeek-R1 Reasoning-Tests.

Nahtlose Bereitstellung über mehrere Knoten hinweg mit Dynamo ›

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung, unterstützt durch die NVIDIA Blackwell- und Blackwell Ultra-Plattformen, einschließlich der NVIDIA GB300 NVL72 und GB200 NVL72-Systeme, NVLink und NVLink Switch, NVIDIA Quantum InfiniBand und NVIDIA Spectrum-X Ethernet-Scale-out-Netzwerke. Diese stehen im Mittelpunkt von KI-Fabriken, die von der NVIDIA-Rechenzentrumsplattform unterstützt werden, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.

Erfahren Sie mehr über die KI-Fabriklösungen von NVIDIA

Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.

Leistungsdaten ansehen

Server

10.756 Tokens/Sekunde
Einzelne GPU

Offline

3,7x

11.264 Tokens/Sekunde
Einzelne GPU

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s

MLPerf-Benchmarks

Was ist MLPerf?

Innerhalb der MLPerf-Benchmarks

Reasoning-LLMs

Vision Language-Modelle

(LLMs)

Text-zu-Video

Text-to-Image

Empfehlung

Neuronales Netzwerk für Graphen

Sprache-zu-Text

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA MLPerf-Benchmark-Ergebnisse

NVIDIA Blackwell-Plattform legt die Messlatte für Leistung und Skalierbarkeit höher

Jährlicher Rhythmus und Extreme Co-Design für nachhaltige Führungsrolle im Training

Leistung in maximaler Größe

NVIDIA bietet höchste Inferenzleistung und unübertroffene Vielseitigkeit

Höherer Token-Durchsatz und geringere Token-Kosten durch Software-Optimierung

NVIDIA GB300 NVL72 und NVIDIA Quantum-X800 InfiniBand ermöglichen die bisher größte MLPerf-Inferenz-Einreichung

Rekordniveau

Höchster Token-Durchsatz

Die Technologie hinter den Ergebnissen

Optimierte Software zur Beschleunigung von KI-Workflows

Erstklassige KI-Infrastruktur

Reasoning-LLMs

Vision Language Model

(LLMs)

Text-zu-Video

Text-to-Image

Empfehlung

Neuronales Netzwerk für Graphen

Sprache-zu-Text

KI Superchip

2. Generation Transformer-Engine

5. Generation NVLINK

RAS-Engine

Sichere KI

Dekompressions-Engine