Aperçu

Comment faire évoluer l'inférence d'IA de manière rentable ?

L'inférence d'IA, c'est-à-dire la façon dont nous expérimentons l'IA via des chatbots, des copilotes et des outils créatifs, évolue à un rythme exponentiel double. L'adoption par les utilisateurs s'accélère, tandis que les jetons d'IA générés par interaction, basés sur des workflows agentiques, un raisonnement à long terme et des modèles Mixture-of-Experts (MoE), s'envolent. 

Pour permettre une inférence de cette ampleur, NVIDIA fournit une architecture à l'échelle des centres de données sur un rythme annuel. Notre conception conjointe de matériel et de logiciels extrêmes permet d'améliorer considérablement les performances et de réduire le coût par jeton, rendant ainsi les expériences d'IA avancées économiquement viables à grande échelle.

NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt et un coût de jeton 35 fois inférieur à celui de Hopper™, maximisant ainsi les revenus pour un budget énergétique identique et générant des taux de marque plus élevés. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.

NVIDIA Vera Rubin inaugure la prochaine avancée en matière d'IA

La plateforme NVIDIA Vera Rubin se compose de sept nouvelles puces désormais en pleine production pour mettre à l'échelle les plus grandes usines d'IA au monde.

Les principaux fournisseurs d'inférence réduisent leurs coûts d'IA jusqu'à 10 fois grâce à des modèles open source sur NVIDIA Blackwell

Baseten, Deep Infra, Fireworks AI et Together AI réduisent leur coût par jeton dans tous les secteurs grâce à des piles d'inférence optimisées s'exécutant sur la plateforme NVIDIA Blackwell.

Les performances d'inférence réduisent le coût des jetons

Les résultats de DeepSeek-R1 8K/1K montrent un avantage de performances multiplié par 15 et une opportunité de revenus pour NVIDIA Blackwell GB200 NVL72 par rapport à Hopper H200.

Avantages

Les performances les plus élevées maximisent les revenus

Grâce à une conception conjointe extrême du matériel et des logiciels, NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt que Hopper, maximisant ainsi les revenus de l'usine d'IA avec le même budget énergétique. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.

Le coût des jetons plus bas augmente les taux de marque

Le système NVIDIA GB300 NVL72 offre un coût par jeton 35 fois inférieur à celui de la plateforme NVIDIA Hopper, permettant ainsi d'augmenter les taux de marque des usines d'IA. À chaque génération, les améliorations des performances dépassent largement les coûts d'infrastructure, améliorant ainsi la rentabilité pour permettre des expériences d'IA avancées à grande échelle.

La pile complète optimise tous les modèles et cas d'utilisation

NVIDIA prend en charge tous les modèles d'IA générative, de ML traditionnel, de calcul scientifique, de biologie et d'IA physique. Des applications en temps réel sensibles à la latence au traitement par lots haut débit, NVIDIA offre les meilleures performances pour tous les cas d'utilisation. Cette plateforme offre une flexibilité et une programmabilité maximales pour choisir la configuration optimale en fonction de l'évolution des charges de travail et des exigences commerciales.

L'intégration native accélère le déploiement

Les logiciels NVIDIA prêts pour la production, notamment Dynamo et TensorRT™ LLM, et l'intégration native avec les principaux frameworks tels que PyTorch, vLLM, SGLang et llm-d, offrent la pile d'inférence d'IA la plus robuste. À mesure que les architectures de modèles et les techniques d'inférence évoluent rapidement, la pile NVIDIA garantit le passage le plus rapide de l'innovation à la production.

Plateforme

Conception conjointe matérielle-logicielle poussée

Un matériel puissant sans orchestration intelligente gaspille du potentiel, tandis qu'un logiciel de qualité sans matériel rapide délivre des performances d'inférence. La plateforme d'inférence de NVIDIA fournit une solution complète optimisée en continu avec des capacités de calcul, de mise en réseau, de stockage et de logiciels co-conçus pour permettre les performances les plus élevées avec diverses charges de travail. 

Découvrez certaines des principales innovations matérielles et logicielles de NVIDIA.

NVIDIA Vera Rubin NVL72

La plateforme NVIDIA Vera Rubin offre des performances par watt 10 fois supérieures à celles de Blackwell et un coût par jeton 10 fois inférieur à celui de Blackwell. Grâce à une conception co-développée extrême, la plateforme associe des GPU Rubin pour un pré-remplissage de contexte massif à LPX pour un décodage rapide, éliminant ainsi le compromis entre vitesse et évolutivité.

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 comprend 72 GPU B300 connectés avec 130 To/s NVLink™, afin qu'ils puissent communiquer en toute transparence entre eux et débloquer d'énormes modèles Mixture of Experts à grande échelle.

NVIDIA Dynamo

NVIDIA Dynamo est un framework de service d'inférence distribué open source dédié au déploiement des modèles dans des environnements multi-nœuds à l'échelle d'une usine d'IA. Il rationalise le traitement distribué en désagrégant l'inférence, en optimisant le routage et en étendant la mémoire via la mise en cache des données vers des couches de stockage rentables.

TensorRT LLM

TensorRT LLM est une bibliothèque open source pour une inférence LLM hautes performances en temps réel optimisée en continu sur des GPU NVIDIA. Grâce à un environnement d'exécution Python modulaire, à la création native de PyTorch et à une API de production stable, il est optimisé pour maximiser le débit, minimiser les coûts et fournir des expériences utilisateur rapides.

Décodage des performances Paretos

Vous êtes-vous déjà demandé comment les compromis complexes en matière d'IA se traduisent en résultats réels ? Découvrez différents points sur les courbes de performance ci-dessous pour vous rendre compte comment la conception conjointe matérielle et logicielle poussée fait de NVIDIA Blackwell Ultra le choix le plus performant, le plus efficace et le plus rentable.

Toy Jensen
TPS / user
TPS / MW
Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 avec désagrégation FP4 Dynamo. H100 avec regroupement FP8 en vol. Performances projetées sujettes à modification.

Vous vous demandez comment chaque configuration se traduit par une expérience utilisateur réelle ? Explorez les courbes seul ou avec l'aide de TJ en cliquant sur « Explorer avec TJ » et voyez-les prendre vie dans le chat simulé à droite.

 

Études de cas

Comment les leaders du secteur stimulent l'innovation avec l'inférence de l'IA

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Ressources

Découvrez nos ressources les plus récentes sur l'IA

Démarrez avec l’inférence sur NVIDIA LaunchPad

Votre projet d’IA est en cours ? Postulez pour acquérir une expérience pratique en matière de test et de prototypage de vos solutions d’IA.

Parcours d’apprentissage en IA générative et LLM

Améliorez vos compétences techniques en IA générative et en modèles de langage à grande échelle grâce à nos parcours d'apprentissage complets.

Démarrez avec l'inférence de l'IA générative sur NVIDIA LaunchPad

Accélérez votre parcours en IA générative avec un accès gratuit, immédiat et à court terme aux microservices d'inférence NVIDIA NIM et aux modèles d'IA.

Déployer l'IA générative en production avec les microservices NVIDIA NIM

Libérez le potentiel de l'IA générative avec les microservices NVIDIA NIM. Cette vidéo explique comment les microservices NVIDIA NIM peuvent transformer votre déploiement de l’IA en une véritable centrale de production.

Top 5 des raisons pour lesquelles Triton simplifie l'inférence

Le serveur d’inférence Triton simplifie le déploiement à grande échelle de vos modèles d’IA en production. Les logiciels d'inférence open source permettent aux équipes de déployer des modèles d'IA entraînés à partir de n'importe quel framework (stockage local ou plateforme Cloud) et sur n'importe quelle infrastructure basée sur GPU ou CPU.

UneeQ

NVIDIA dévoile les NIM

Vous êtes-vous déjà demandé ce que la technologie NIM de NVIDIA est capable de faire ? Plongez dans le monde impressionnant des humains numériques et des robots pour découvrir ce dont les NIM sont capables.

Étapes suivantes

Vous voulez vous lancer ?

Découvrez tout ce dont vous avez besoin pour commencer à développer votre application d'IA, y compris la documentation, les didacticiels et les articles techniques les plus récents, et plus encore.

Trouvez le matériel adapté pour vos charges de travail d'inférence.

Les solutions NVIDIA pour Data Center sont disponibles auprès de certains fournisseurs du Réseau de partenaires NVIDIA (NPN). Découvrez les options flexibles et abordables qui vous permettront d’accéder aux dernières technologies Data Center de NVIDIA grâce à notre réseau de partenaires.

Découvrez les dernières actualités sur l'inférence de l'IA de NVIDIA

Inscrivez-vous pour recevoir les informations et mises à jour les plus récentes de NVIDIA sur l'IA, et plus encore.

Suivez l’actualité de NVIDIA dans le domaine de l'IA