Überblick

Wie lässt sich KI-Inferenz profitabel skalieren?

KI-Inferenz – die Art und Weise, wie wir KI durch Chatbots, Copilots und kreative Tools erleben – skaliert mit einem doppelt exponentiellen Tempo.  Die Akzeptanz durch die Benutzer nimmt immer mehr zu, während die Anzahl der KI-Token, die pro Interaktion generiert werden, aufgrund des Antriebs von agentischen Workflows, langfristigem Schlussfolgern und MoE-Modellen (Mixture-of-Experts) rasant steigt.

Um Inferenz in diesem großen Maßstab zu ermöglichen, bietet NVIDIA eine Architektur im Rechenzentrumsmaßstab mit einem jährlichen Rhythmus. Unser hochentwickeltes Hardware- und Software-Co-Design ermöglicht einen deutlichen Leistungssprung und senkt die Kosten pro Token. Dies macht hochentwickelte KI-Erfahrungen im großem Maßstab wirtschaftlich rentabel.

NVIDIA GB300 NVL72 bietet 50-mal mehr Tokens pro Watt und 35-mal niedrigere Token-Kosten im Vergleich zu Hopper™, wodurch der Umsatz bei gleichem Stromverbrauch maximiert und höhere Gewinnmargen erzielt werden. Kontinuierliche Softwareoptimierungen erzielen maximale Leistung auf Chip-, Rack- und Rechenzentrumsniveau und verbessern die Investitionsrendite im Laufe der Zeit weiter.

NVIDIA Vera Rubin eröffnet neue Dimensionen der KI

Die NVIDIA Vera Rubin-Plattform besteht aus sieben neuen Chips, die sich jetzt in voller Produktion befinden, um die weltweit größten KI-Fabriken zu skalieren.

Führende Inferenzanbieter senken die KI-Kosten um das bis zu 10-Fache mit Open-Source-Modellen auf NVIDIA Blackwell

Baseten, Deep Infra, Fireworks AI und Together AI senken die Kosten pro Token in verschiedenen Branchen mit optimierten Inferenzstacks, die auf der NVIDIA-Blackwell-Plattform ausgeführt werden.

Inferenzleistung senkt die Kosten für Token

Die Ergebnisse von DeepSeek-R1 8K/1K zeigen einen 15-fachen Leistungsvorteil und Umsatzpotenzial für NVIDIA Blackwell GB200 NVL72 gegenüber Hopper H200.

Vorteile

Höchste Leistung maximiert den Umsatz

Dank extremem Hardware- und Software-Codesign liefert die NVIDIA GB300 NVL72 50-mal mehr Token pro Watt als Hopper und maximiert den Umsatz der KI-Fabrik bei gleichem Energiebudget. Kontinuierliche Softwareoptimierungen erzielen maximale Leistung auf Chip-, Rack- und Rechenzentrumsniveau und verbessern die Investitionsrendite im Laufe der Zeit weiter.

Niedrige Token-Kosten verbessern die Gewinnspannen

Das NVIDIA GB300 NVL72-System liefert 35-mal geringere Kosten pro Token im Vergleich zur NVIDIA Hopper-Plattform und sorgt für höhere Gewinnmargen für KI-Fabriken. Mit jeder Generation übertreffen die Leistungsverbesserungen die Infrastrukturkosten bei Weitem und sorgen für eine bessere Wirtschaftlichkeit, um fortschrittliche KI-Erlebnisse in großem Maßstab zu ermöglichen.

Full Stack optimiert jedes Modell und jeden Anwendungsfall

NVIDIA unterstützt jedes Modell über generative KI, herkömmliches ML, wissenschaftliches Computing, Biologie und physische KI. Von latenzsensiblen Echtzeitanwendungen bis hin zur Batchverarbeitung mit hohem Durchsatz liefert NVIDIA die beste Leistung für jeden Anwendungsfall. Die Plattform bietet maximale Flexibilität und Programmierbarkeit, um die optimale Konfiguration für sich entwickelnde Workloads und Geschäftsanforderungen zu wählen.

Native Integration beschleunigt die Bereitstellung

Die produktionsreife Software von NVIDIA, darunter Dynamo und TensorRT™ LLM, sowie die native Integration mit führenden Frameworks wie PyTorch, vLLM, SGLang und llm-d bieten den robustesten KI-Inferenz-Stack. Angesichts der rasanten Weiterentwicklung von Modellarchitekturen und Inferenztechniken gewährleistet die Technologieplattform von NVIDIA den schnellsten Weg von der Innovation bis zur Produktion.

Plattform

Extremes Hardware-Software-Codesign

Leistungsstarke Hardware ohne intelligente Orchestrierung verschwendet Potenzial; großartige Software ohne schnelle Hardware führt zu einer langsamen Inferenzleistung. Die Inferenzplattform von NVIDIA bietet eine kontinuierlich optimierte Full-Stack-Lösung mit gemeinsam entwickelter Rechenleistung, Netzwerktechnik, Datenspeicher und Software, um höchste Leistung für verschiedene Workloads zu ermöglichen. 

Entdecken Sie einige der wichtigsten Hardware- und Softwareinnovationen von NVIDIA.

NVIDIA Vera Rubin NVL72

Die NVIDIA Vera Rubin-Plattform bietet 10-mal bessere Verarbeitungsleistung pro Watt und 10-mal geringere Kosten pro Token als Blackwell. Durch extremes Co-Design kombiniert die Plattform Rubin-GPUs für massives Kontext-Prefill mit LPX für schnelle Decodierung, wodurch der Kompromiss zwischen Geschwindigkeit und Skalierbarkeit entfällt.

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 enthält über 72 B300-GPUs, die mit 130 TB/s NVLink™ verbunden sind, sodass sie nahtlos miteinander kommunizieren und massive Mixture-of-Experts-Modelle in großem Maßstab erschließen können.

NVIDIA Dynamo

NVIDIA Dynamo ist ein verteiltes Open-Source-Inferenz-Serving-Framework, um Modelle in Multi-Knoten-Umgebungen im KI-Fabrikmaßstab bereitzustellen. Es optimiert die verteilte Bereitstellung durch Disaggregation der Inferenz, Optimierung des Routing und Erweiterung des Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.

TensorRT-LLM

TensorRT-LLM ist eine Open-Source-Bibliothek für kontinuierlich optimierte leistungsstarke LLM-Inferenz in Echtzeit auf NVIDIA-GPUs. Mit einer modularen Python-Runtime, PyTorch-nativem Authoring und einer stabilen Produktions-API wurde sie optimiert, um den Durchsatz zu maximieren, die Kosten zu minimieren und ein schnelles Benutzererlebnis zu ermöglichen.

Die Performance Paretos entschlüsseln

Haben Sie sich jemals gefragt, wie sich komplexe KI-Kompromisse in realen Ergebnissen niederschlagen? Erkunden Sie verschiedene Punkte entlang der nachfolgenden Leistungskurven, um direkt zu sehen, wie das extreme Hardware- und Software-Codesign NVIDIA Blackwell Ultra zur leistungsstärksten, effizientesten und wirtschaftlichsten Wahl macht.

Toy Jensen
TPS / user
TPS / MW
Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 mit FP4 Dynamo Disaggregation. H100 mit FP8-In-Flight-Batching. Änderungen bei der Leistung vorbehalten.

Möchten Sie wissen, wie sich jede einzelne Konfiguration auf reale Benutzererlebnisse auswirkt? Entdecken Sie die Kurven allein oder mit Anleitung von TJ, indem Sie auf „Mit TJ entdecken“ klicken, und sehen Sie, wie sie im simulierten Chat auf der rechten Seite zum Leben erweckt werden.

 

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Erste Schritte mit Inferenz auf NVIDIA LaunchPad

Haben Sie schon ein KI-Projekt? Bewerben Sie sich, um in einer Umgebung für das Testen und Prototyping Ihrer KI-Lösungen praktische Erfahrungen zu sammeln.

Lernpfade für generative KI und LLM erkunden

Verbessern Sie Ihre technischen Fähigkeiten in generativer KI und großen Sprachmodellen mit unseren umfassenden Lernpfaden.

Einstieg in die Inferenz mit generativer KI auf NVIDIA LaunchPad

Kommen Sie durch direkten, kurzfristigen Zugang zu NVIDIA NIM-Inferenz-Microservices und KI-Modellen schneller bei Ihrer Arbeit mit generativer KI voran – kostenlos.

Bereitstellung von generativer KI im Produktivbetrieb mit NVIDIA NIM

Nutzen Sie das Potenzial generativer KI mit NVIDIA NIM. Dieses Video zeigt, wie NVIDIA NIM-Microservices Ihre KI-Bereitstellung in ein Kraftpaket verwandeln können, das für den Produktivbetrieb bereit ist.

Top-5-Gründe, warum Triton die Inferenz vereinfacht

Triton Inference Server vereinfacht die Bereitstellung von KI-Modellen im großen Maßstab im Produktivbetrieb. Mit Open-Source-Inferenz-Serving-Software können Teams trainierte KI-Modelle aus jedem Framework heraus zu implementieren – ob auf lokaler Speicher- oder Cloud-Plattform – auf jeder GPU- oder CPU-basierten Infrastruktur.

UneeQ

NVIDIA enthüllt NIMs

Wollten Sie immer schon einmal wissen, was die NIM-Technologie von NVIDIA alles kann? Vertiefen Sie sich in die Welt der sensationellen „digitalen Menschen“ und Roboter, um zu sehen, was NIMs möglich machen.

Nächste Schritte

Sind Sie bereit?

Finden Sie alles, was Sie für die Entwicklung eigener KI-Anwendungen brauchen, u. a. die neueste Dokumentation, Tutorials, technische Blogs und mehr.

Finden Sie die passende Hardware für Ihre Inferenz-Workloads

NVIDIA-Lösungen für Rechenzentren sind über ausgewählte Partner des NVIDIA Partner Network (NPN) erhältlich. Entdecken Sie flexible und erschwingliche Optionen für den Zugriff auf die neuesten NVIDIA-Rechenzentrumstechnologien über unser Partnernetzwerk.

Erhalten Sie aktuelle Informationen zu NVIDIA KI-Inferenz

Melden Sie sich an, um keine aktuellen Neuheiten und Updates und mehr zum Thema KI-Inferenz von NVIDIA mehr zu verpassen.

Erfahren Sie aktuelle Neuheiten von NVIDIA zu KI-Inferenz