概览

凭借 NVIDIA 全栈推理掌握 AI Token 经济学

AI 推理 — 通过聊天机器人、copilot 和创意工具体验 AI — 正在以双倍指数级的速度扩展。在智能体工作流、长推理思考以及混合专家模型 (MoE) 的推动下,每次交互生成的 AI token 数量急剧增加,同时,用户采用率也持续攀升。

为了实现如此大规模的推理,NVIDIA 每年都会提供数据中心级架构。我们卓越的硬件和软件协同设计实现了性能数量级的飞跃,并持续降低 token 成本,从而使先进的 AI 体验在规模化应用中具有经济可行性。

NVIDIA Grace Blackwell Ultra 机架级系统架构的高性能计算平台每瓦 token 数是 Hopper™ 的 50 倍,成本降低了 35 倍,从而在相同的功率预算内更大限度地提高收益,提高利润空间。持续软件优化可在芯片、机架和数据中心规模上实现更高性能,随着时间的推移进一步提高投资回报率。

重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

每 Token 成本是定义推理总体拥有成本 (TCO) 的指标,NVIDIA Blackwell 提供了行业内最低的 Token 成本。

领先推理提供商基于 NVIDIA Blackwell 实现最低 token 成本

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通过在 NVIDIA Blackwell 平台上运行优化的推理堆栈,帮助各行业降低每 token 成本。

推理性能降低 token 成本

DeepSeek-R1 8K/1K 结果显示,NVIDIA Blackwell GB200 NVL72 的性能优势和收入机会是 Hopper H200 的 15 倍。

降低 token 成本的因素有哪些?

许多企业在评估人工智能基础设施时,往往只关注分子项:单块显卡每小时的使用成本。���果是云部署,这是支付给云提供商的小时费率;如果是本地部署,这是摊销自有基础设施而得出的有效小时成本。降低 token 成本的真正关键在于分母:最大化已交付的 token 输出。

而这个分母指标具备两个业务层面的含义。

1. 降低 token 成本:token 输出量提升后,结合成本计算公式来看,单位 token 成本随之下降,进而提高每一次交互服务的利润率。

2. 提升收益:每秒处理的 token 数量越多,每兆瓦能耗对应的 token 处理量也就越高。这意味着基于这套基础设施,AI 赋能产品与服务能承载更强的智能能力,在投入不变的情况下创造更多收益。

单位 token 的成本是 AI 基础设施 TCO 的密钥指标

仅计算成本就显示,NVIDIA Blackwell 平台的成本似乎比 NVIDIA Hopper™ 高出 2 倍,但计算成本无法说明投资带来的产出。仅从每美元所能提供的浮点运算能力来看,与 NVIDIA Hopper 体系架构相比,NVIDIA Blackwell 具有 2 倍的优势。

然而,实际结果却存在几个数量级的差异:NVIDIA Blackwell 的每兆瓦 token 输出比 Hopper 高 50 倍以上,每百万 token 的成本降低近 35 倍。

指标 NVIDIA Hopper
NVIDIA Blackwell
NVIDIA Blackwell 相较于 Hopper
每 GPU 每小时的成本 ($) $1.41 $2.65 2 倍
每美元 FLOPS (PFLOPS) 2.8 5.6 2 倍
每 GPU 每秒 token 数 90 6,000 65 倍
每兆瓦每秒 token 数 54K 2.8M 50 倍
每百万 token 成本 ($) $4.20 $0.12 降低至 1/35

优势

更高的性能更大限度地提高收益

凭借出色的硬件和软件协同设计,NVIDIA Blackwell 架构高性能计算平台每瓦可提供比 Hopper 高 50 倍的 token 数,从而在相同的功率预算内更大限度地提高 AI 工厂的收入。持续软件优化可在芯片、机架和数据中心规模上实现更高性能,随着时间的推移进一步提高投资回报率。

更低的 token 成本,拓展了利润空间

与 NVIDIA Hopper 相比,NVIDIA Blackwell 高性能计算平台可将每个 token 的成本降至降低 35 倍,从而提高 AI 工厂的利润空间。每一代的性能提升都会远远超过基础设施成本,创造更好的经济效益,从而实现大规模的高级 AI 体验。

全栈优化每个模型和用例

NVIDIA 支持生成式 AI、传统机器学习、科学计算、生物学和物理 AI 领域的各种模型。从对延迟敏感的实时应用到高吞吐量的批量处理,NVIDIA 可为每个用例提供出色性能。该平台提供了极大的灵活性和可编程性,可根据不断变化的工作负载和业务需求选择最佳配置。

原生集成加速部署

NVIDIA 的生产就绪型软件 (包括 Dynamo 和 TensorRT™ LLM) 以及与 PyTorch、vLLM、SGLang 和 llm-d 等领先框架的原生集成,可提供强大的 AI 推理堆栈。随着模型架构和推理技术的快速发展,NVIDIA 的堆栈可确保提供从创新到生产的最快途径。

平台

极致的硬件软件协同设计

强大的硬件若缺乏智能编排,便会浪费潜能;优秀的软件若没有高速硬件支撑,只会带来迟缓的推理性能。NVIDIA 推理平台提供持续优化的全栈解决方案,通过协同设计的计算、网络、存储与软件,可在各种工作负载中实现更高性能。

探索一些关键的 NVIDIA 硬件和软件创新。

NVIDIA Vera Rubin 计算平台

与 Blackwell 相比,NVIDIA Vera Rubin 高性能计算平台的每瓦性能提高了 10 倍,每 token 的成本降低至 1/10。通过极致协同设计,该平台将 Rubin GPU 与 LPX 配对,实现大规模上下文预填充,从而实现快速解码,无需在速度和规模之间进行权衡。

NVIDIA Grace Blackwell 机架级系统

NVIDIA Grace Blackwell 高性能计算平台将 72 个 NVIDIA Blackwell 架构 GPU 与 NVIDIA NVLink™ 相结合,可大规模部署大规模推理模型,同时将 token 成本降低至 1/10。

NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、分布式推理服务框架,可在 AI 工厂规模的多节点环境中部署模型。它通过分解推理、优化路由以及通过数据缓存将内存扩展到经济高效的存储层来简化分布式服务。

TensorRT LLM

TensorRT LLM 是一个开源库,可在 NVIDIA GPU 上持续优化高性能实时 LLM 推理。借助模块化 Python 运行时、PyTorch 原生创作和稳定的生产 API,经优化后可更大限度提升吞吐量、最小化成本并提供快速的用户体验。

解析性能帕累托最优曲线

您是否想过复杂的 AI 权衡如何转化为实际成果?探索下方性能曲线中的不同点,亲身体验硬件和软件协同设计如何助力 NVIDIA Blackwell Ultra 成为性能卓越、高效且盈利能力卓越的选择。

Toy Jensen
TPS / user
TPS / MW
Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K,在 GB300 NVL72 上使用 FP4 和 Dynamo 做 P/D 分离部署。在 H100 上使用 FP8 实时批处理 (in-flight batching)。该数据仅作为技术探讨和参考使用,上述推理性能将随实际的生产环境而改变。

想知道不同配置如何影响真实的用户体验?您可独立调整参数观察曲线变化,或跟随 TJ 的交互式引导,右侧模拟对话区域将实时呈现效果差异。

 

���户成功案例

行业领导者如何利用 AI 推理推动创新

Amdocs

提升生成式 AI 的性能并降低成本

了解 Amdocs 如何使用 NVIDIA DGX™ Cloud 和 NVIDIA NIM 预构建容器工具,来构建 amAIz,这是一个面向电信行业的专用生成式 AI 平台,旨在降低延迟、提高准确性并降低成本。

Snapchat

利用 AI 增强服装购物体验

了解 Snapchat 如何利用 Triton 推理服务器增强服装购物体验和感知表情符号的光学字符识别功能,从而实现扩展规模、降低成本并加速产品上市时间。

Amazon

提高客户满意度

了解 Amazon 如何使用 TensorRT 将推理加速到 5 倍来提高客户满意度。

下载资源

最新 AI 推理相关的学习资源

AI 基础设施专业人员培训

了解部署、运行和优化 AI 基础设施。

了解 AI 工厂部署

无论您的团队是负责配置交换机和验证布线,还是安装集群管理软件和编排 GPU 工作负载,此次培训都提供了结构化指导,助力您正确完成任务。

推理入门:如何在 GPU 上运行 AI 模型

了解如何在 Google Cloud 的 GPU 上设置和运行 AI 推理。此路径让您通过实际示例开始了解推理工作流、模型格式和性能指标。

极致协同设计,实现高效 Tokenomics 和大规模 AI

��着 AI 转向实时推理,密钥挑战是在处理 MoE 等模型产生的海量工作负载的同时,降低每 Token 的成本 (即生成智能的成本)。实现这一目标需要严格优化整个栈,使端到端系统设计成为扩展高效、高投资回报率 AI 的最有效方式。

为什么每 token 成本是您评估 AI TCO 所需的唯一指标

如今,AI 数据中心正逐渐演变为 token 工厂。每 token 的成本会捕捉 GPU、CPU、网络建设、软件和生态系统中的端到端性能,这使其成为 AI 领域真正盈利能力和可扩展性的密钥驱动因素。NVIDIA 提供最低的每 token 成本和最高的每瓦性能,从而最大限度地提高 AI 工厂收入。

UneeQ

DeepL 如何搭建面向实时语言 AI 的基础设施

DeepL 正在利用 NVIDIA Grace Blackwell Ultra机架级系统上的 NVIDIA TensorRT LLM 和 NVFP4 推理来训练多专家模型 (MoE) 模型,提升其模型体系架构以提升训练和推理过程中的效率,为 AI 的性能设定新的基准。

关于 NVIDIA 推理平台的总拥有成本 (TCO) 的常见问题解答

根据 SemiAnalysis InferenceX 基准测试,截至 2026 年 4 月,NVIDIA Grace Blackwell Ultra机架级系统使用 NVIDIA Dynamo 和 TensorRT™-LLM 在 116 TPS/用户交互下提供每百万 Token 0.123 美元的 AI 推理,这是各大平台中每 token 的最低成本。

根据 SemiAnalysis InferenceX 基准测试 (2026 年第一季度),通过硬件-软件协同设计,NVIDIA Grace Blackwell Ultra 机架级系统在低延迟代理式工作负载方面,每兆瓦吞吐量提高多达 50 倍,每 token 成本比 NVIDIA Hopper™ 低多达 35 倍。NVIDIA Grace Blackwell Ultra 机架级系统搭载 Blackwell GPU,单 GPU 配备高显存。所有组件通过 NVIDIA NVLink™ 交换机互联,形成统一的 NVLink 互联架构,实现高带宽。这种体系架构最大限度地降低了全对全通信延迟,使 DeepSeek-R1 等大规模专家混合体 (MoE) 模型能够同时在多个 GPU 上高效扩展专家并行。

仅看计算定价或每美元 FLOP,无法全面了解推理 TCO。AI 推理 TCO 最重要的指标是单位 token 成本,或实际提供的性价比。 根据截至 2026 年 4 月的 SemiAnalysis InferenceX 基准测试,NVIDIA Grace Blackwell Ultra 机架级系统使用 NVIDIA Dynamo 和 TensorRT-LLM 技术,在 116 TPS/用户交互速度下,AI 推理成本为每百万 token 0.123 美元 - 这是各大平台中每 token 的最低成本。

在评估推理 TCO 时,重要的是要关注大规模专家混合体 (MoE) 和 DeepSeek-R1 等推理模型。 几乎所有最新的封闭和开源 LLM 都采用了 MoE 和推理架构,这归功于其卓越的智能和效率。 通过评估这些模型的推理 TCO,能确保分析结果贴合实际部署场景。

NVIDIA 的 TensorRT-LLM 和 Dynamo 软件栈可在不改变硬件的情况下,实现持续的推理成本优化。根据截至 2026 年 4 月的 SemiAnalysis InferenceX 基准测试,NVIDIA Grace Blackwell Ultra 机架级系统在 GPT-OSS-120B 上的每百万 Token 成本在两个月内从发布时的 0.11 美元降至 0.02 美元 - 仅软件一项就实现了 5 倍的提升。每个 TensorRT-LLM 版本通常通过内核融合、量化改进和调度优化来实现吞吐量提升。

后续步骤:了解更多 AI 推理 TCO

准备好开始了吗?

探索您启动开发 AI 应用所需的一切资源,包括最新的文档、教程、技术博客等。

为推理工作负载找到合适的硬件

NVIDIA 数据中心解决方案通过精选的 NVIDIA 合作伙伴网络 (NPN) 合作伙伴提供。通过我们的合作伙伴网络,探索灵活且经济实惠的方案,以获取最新的 NVIDIA 数据中心技术。

获取 NVIDIA AI 推理的最新动态

注册获取 NVIDIA 最新的 AI 推理新闻、动态等内容。

获取来自 NVIDIA,关于 AI 推理的最新信息