NVIDIA Vera CPU

NVIDIA Vera

面向代理式 AI 打造的 CPU。

概览

专为全球 AI 工厂打造

NVIDIA Vera 专为代理式 AI 和强化学习 (RL) 背后的 CPU 工作而设计,包括代码执行、工具使用、沙盒、分析、数据工作流和模型之外的编排。Vera 既是面向加速系统的主机 CPU,也是面向 AI 工厂工作负载的独立 CPU,Vera 能够确保 GPU 持续有输入可算、智能体响应迅速,并保证训练循环正常运行。搭载快速、高效 NVIDIA Olympus 内核与高带宽 LPDDR5X 内存,Vera 的沙盒环境性能较传统 CPU 基础设施提升最高 70%,助力 AI 算力中心实现更高的单位成本 Token 产出。

隆重推出 Vera,这款专为运行全球 AI 智能体而设计的 CPU

NVIDIA 推出了高性能、高能效的 NVIDIA Vera CPU,用于驱动不同行业的各种工作负载,包括代理式 AI、强化学习和数据处理。

Vera 面世:NVIDIA 首个专为智能体打造的 CPU 已经登陆顶级 AI 实验室

NVIDIA Hyperscale 和高性能计算 (HPC) 副总裁 Ian Buck 亲手交付了首批 NVIDIA Vera CPU 系统给 Anthropic、OpenAI、Oracle Cloud 基础设施和 SpaceXAI,这标志着代理式 CPU 从发布走向量产的阶段。

NVIDIA Vera 机架

NVIDIA Vera CPU 机架

NVIDIA Vera CPU 机架为 AI 工厂规模的强化学习和代理式 AI 提供支持。它基于 NVIDIA MGX™ 构建,集成多达 256 个 Vera CPU,可同时运行超过 2.25 万个并发环境。

亮点

行业领先的代理式 CPU 性能

代理式沙盒性能提升 1.8 倍

代理式 AI 受限于传统 CPU 的瓶颈。在智能体的推理循环中,CPU 查询 SQLite 内存、编译生成的代码、运行 Python 工具链,并使用正则表达式解析输出。NVIDIA Vera 可将所有五种工作负载加速至主流 x86 CPU 的 1.8 倍,从而对代理式内循环进行涡轮加速,以以更大限度提升 AI 工厂输出。

基于测量数据的相对性能,并可能发生变化。以 AMD 霄龙 Turin 系列 x86 处理器为基准,在代码编译、解释器、脚本运行、运行时引擎、数据抽取转换加载 (ETL)、数据分析及图计算等各类工作负载下,对 NVIDIA Vera 处理器进行性能对比测试。

基于测量数据的相对性能,并可能发生变化。配备 LPDDR5X 的 NVIDIA Vera CPU 性能以配备 DDR5 的 x86 CPU (AMD EPYC Turin) 为基准,涵盖关键 CPU 内存性能指标。

高带宽、高能效内存

传统的 DDR5 需要在带宽、效率和可维护性之间权衡。NVIDIA Vera 搭配 LPDDR5X 内存与 SOCAMM 模组。该模组支持拆卸、现场更换,兼具低功耗特性、服务器级灵活性与可扩容能力。与采用 DDR5 的主流 x86 CPU 相比,其带宽提升了 2 倍、每核心带宽提升了 3 倍、能效提升了 4 倍,从而在 Hyperscale 和企业级规模下实现了更高的 AI 工厂输出。

用例

专为 AI 工厂设计

主机 CPU

NVIDIA Vera 作为 AI 工厂的主机 CPU 提供系统级能效,包括 NVIDIA Vera Rubin NVL72 和 HGX™ Vera Rubin NVL8 平台。Vera 为大规模 AI 中 GPU 的提供持续输入计算,同时运行使工厂正常运转的 CPU 工作,包括 ETL、键值 (KV) 缓存管理和编排。凭借卓越的单线程性能、海量的内存带宽以及避免跨小芯片延迟的单计算芯片设计,Vera 在提供可预测性能的同时,确保 GPU 在加速 AI 和 HPC 系统中得到充分利用。

独立 CPU

针对代理式 AI、强化学习、数据处理和分析,NVIDIA Vera 提供领先的每核心性能和海量的内存带宽,可同时运行数千个并行沙盒环境、工具调用、代码执行、评估循环和数据工作流。CPU 运算速度提升,能减少智能体等待耗时,让强化学习系统在每次训练中产出更多反馈,也帮助 AI 算力中心实现更高的单位成本 Token 产出。Vera 作为独立 CPU 平台,还可支撑超大规模云计算、企业业务及高性能计算负载,并可搭配 NVIDIA Vera BlueField®-4 STX 拓展至存储基础设施领域。Vera 适配高密度、液冷的 NVIDIA Vera CPU 机架,或标准双路和单插槽配置,适合任何数据中心。

特性

探索技术突破

NVIDIA Vera 专为满足强化学习和代理式 AI 的需求而构建,结合了定制设计的 Olympus 核心、高带宽 LPDDR5X 内存和低延迟的 NVIDIA 可扩展一致性网络 (SCF)。凭借 NVIDIA NVLink™-C2C 连接、机密计算和完全的 Arm® 兼容性,Vera 扩展到加速系统和现代数据中心环境。其单片计算架构可保障软件环境响应迅速、数据高效流转,全面提升人工智能、数据分析与高性能计算负载的吞吐量、能效及 GPU 利用率。

NVIDIA 定制 Olympus 核心

NVIDIA Vera 搭载 88 个定制的 Olympus 核心,专为代理式 AI 和强化学习背后的控制密集型、延迟敏感的工作而设计。卓越的单线程性能有助于软件环境、工具调用和评估循环更快地完成,而 NVIDIA 空间的多线程创建了 176 个线程,其中包含分区的核心资源,以实现可预测的大规模吞吐量。

LPDDR5X 内存子系统

NVIDIA Vera 的 LPDDR5X 内存带宽最高可达 1.2TB/s,相比传统 CPU 内存,带宽提升一倍,功耗却降至一半。可保障数千个并行软件环境流畅运行,同时加快强化学习迭代速度、优化键值缓存管理,并高效支撑数据密集型 AI  智能体工作流。Vera 拥有高达 1.5 TB 的内存,为 AI 工厂、分析和 HPC 工作负载提供了容量和效率。

第二代 NVIDIA SCF

NVIDIA Vera 采用第二代 NVIDIA SCF,在单颗计算芯片内实现全部 88 个核心、缓存、内存、输入输出以及 NVLink-C2C 互联。凭借 3.4 TB/s 的二分带宽和统一的缓存体系架构,SCF 也能让核心快速、一致地访问数据,即使在 CPU 被完全利用的情况下也是如此。通过避免跨小芯片通信,Vera 能够为大规模代理式工作负载、分析和 AI 工厂基础设施保持可预测的延迟和吞吐量。

NVIDIA NVLink-C2C

NVIDIA NVLink-C2C 在 Vera CPU 和 NVIDIA GPU 之间提供高达 1.8 TB/s 的一致性互联带宽。Vera 与 NVIDIA Rubin GPU 搭配使用,可创建统一的内存体系架构,帮助 CPU 和 GPU 协同工作,处理复杂的 AI 和 HPC 工作负载、大量数据和 KV 缓存卸载。NVLink-C2C 降低了数据传输瓶颈、通过简化实现最优、支持对敏感数据和代码的安全隔离,并可在双插槽 Vera CPU 系统中实现高速连接。

开始使用

及时了解 NVIDIA 新闻

注册以接收 NVIDIA 发布的最新资讯与动态。

请在可用时发送电子邮件给我