NVIDIA Run:ai

用于 AI 工作负载和 GPU 编排的企业级平台。

概览

借助动态编排加速 AI 工作流

NVIDIA Run:ai 通过动态资源分配、全面的 AI 生命周期支持和战略资源管理来解决关键的基础设施挑战，从而加速 AI 和机器学习操作。通过跨环境汇集资源并利用高级编排，NVIDIA Run:ai 显著提高了 GPU 效率和工作负载容量。NVIDIA Run:ai 支持公有云、私有云、混合环境或本地部署数据中心，提供无与伦比的灵活性和适应性。

什么是智能编排？

了解 AI 原生工作负载编排如何最大限度地提高 GPU 效率，简化 AI 基础设施管理，以及如何在混合云和多云环境中无缝扩展 AI 工作负载。

阅读解决方案概览

什么是 NVIDIA Run:ai？

NVIDIA Run:ai 在整个 AI 生命周期内通过动态编排加速 AI 操作，最大限度地提高 GPU 效率，扩展工作负载，并无缝集成到混合 AI 基础设施中，无需人工干预。

NVIDIA Run:ai 通过无缝贯穿 AI 全生命周期，借助 GPU 的高级 AI 工作负载编排能力以及强大的策略引擎，将资源管理转变为战略资产，确保资源利用率优化并与业务目标保持一致。

NVIDIA Run:ai：通往生产级代理式 AI 的更简单途径

NVIDIA Run:ai v2.25 推进了一个用于构建和运行生产级 AI 系统的统一平台。它简化了 AI 应用部署、分布式工作负载编排和推理扩展，具有更高的可见性和可控性，帮助企业更高效、更可靠地大规模运行 AI。

阅读版本说明

特性

AI 工作负载和 GPU 编排，以大规模构建、训练和部署 AI 工作负载

AI 原生工作负载编排

跨分布式环境集中和自动执行 AI 工作负载，将分散的基础设施转变为可扩展的 AI 工厂。

动态 GPU 分配

通过实时动态匹配资源与工作负载需求，确保每个 GPU 都能提供最大价值。

策略驱动型治理

通过策略驱动的集中式治理，安全高效地跨部门、项目和团队运行 AI 工作负载，确保公平、优先且可靠地访问 GPU 资源。

开放式体系架构

NVIDIA Run:ai 采用 API 优先方法，可确保与所有主要 AI 框架、机器学习工具和第三方解决方案无缝集成。

性能

现实世界中的 AI 加速：经过验证的大规模 GPU 编排

动态调度和编排可加速 AI 吞吐量、实现无缝扩展并更大限度地提高 GPU 利用率。

10 倍

GPU 可用性

20 倍

运行中的工作负载

5 倍

GPU 利用率

人工干预

解决方案

来自 NVIDIA Run:ai 的开源解决方案

借助 KAI Scheduler 在 Kubernetes 上大规模、公平高效地 AI 工作负载调度

开源 KAI Scheduler 基于 NVIDIA Run:ai，与常见的 Kubernetes 技术集成，利用 YAML 文件轻松灵活地管理 AI 工作负载。非常适合开发者和小型团队，为 AI 资源的编排提供了高效的解决方案。

无缝、开源、Kubernetes 调度

使用 Grove 在 Kubernetes 上提供拓扑优化服务

Grove 在 Kubernetes 上连接 AI 推理框架和调度，通过统一的自定义资源实现相互依赖组件的高效扩展和声明式启动顺序。Grove 会自动生成调度约束，KAI Scheduler 等 Kubernetes 调度程序可将其解释为拓扑感知型帮式调度部署。作为 NVIDIA Dynamo 的模块化组件，Grove 还可以独立运行或与其他推理框架集成。

了解 Grove 的工作原理

借助 NVIDIA Run:ai Model Streamer，将模型加载时间从几分钟缩短到几秒钟

Model Streamer 是一款具有高性能 C++ 后端的 Python SDK，用于加速推理工作负载中的模型加载。它使用多个线程同时从任何存储类型中读取张量，同时将其直接传输到 GPU 显存。通过使可用的存储带宽饱和，Model Streamer 可显著减少加载模型所需的时间。

查看基准测试结果

优势

释放 AI 基础设施的全部潜力

NVIDIA Run:ai 专为 AI 调度和基础设施管理而打造，可在 AI 整个生命周期中加速 AI 工作负载，缩短价值实现时间。

更大限度地提高 GPU 利用率，最大限度地降低成本，并提高 AI 效率

NVIDIA Run:ai 在混合环境中动态地汇集和编排 GPU 资源。通过消除浪费、最大限度地利用资源，并将计算能力与业务优先级保持一致，企业实现了卓越的投资回报率，降低了运营成本，并快速扩展 AI 计划。

从开发到部署无缝加速 AI

NVIDIA Run:ai 可在 AI 生命周期中实现从开发到训练和部署的无缝过渡。通过编排资源并将不同的 AI 工具集成到统一的工作流中，该平台可减少瓶颈，缩短开发周期，并更快地将 AI 解决方案扩展到生产环境中，从而取得切实的业务成果。

集中式编排以实现全面 AI 控制

NVIDIA Run:ai 提供对分布式 AI 基础设施、工作负载和用户的端到端可视化和控制。该技术的集中式编排整合来自云端、本地部署和混合环境的资源，为企业提供可行的见解、策略驱动式治理和精细资源管理，从而实现高效和可扩展的 AI 运营。

跨越各种环境灵活集成

NVIDIA Run:ai 以卓越的灵活性和可用性为现代 AI 工厂提供支持。其开放式体系架构可与任何机器学习工具、框架或基础设施无缝集成，无论是在公有云、私有云、混合环境中，亦或本地部署数据中心。

用例

借助智能编排加速 AI 工作负载

NVIDIA Run:ai 专为 AI 工作负载而打造，可提供智能编排，最大限度地提高计算效率，并动态扩展 AI 训练和推理。

扩展 AI
分片推理
缓解冷启动问题

企业 AI 加速

NVIDIA Run:ai 帮助企业高效扩展 AI 工作负载，从而降低成本并改善 AI 开发周期。通过动态分配 GPU 资源，企业组织可更大限度地提高计算利用率，减少空闲时间，并加速机器学习计划。NVIDIA Run:ai 还通过提供统一的管理界面简化 AI 运营，实现数据科学家、工程师和 IT 团队之间的无缝协作。

观看视频 (08:02)

更大限度地提高 Token 吞吐量

在共享 GPU 基础设施上同时运行各种 AI 工作负载，以大幅提高总吞吐量和利用率。通过对推理、嵌入、生成任务进行 GPU 分片分配，企业可以并行运行更多模型，且不会出现资源争抢。与单模型、全 GPU 执行相比，混合工作负载可在 GPU、主机和集群级别提供更高的总吞吐量，从而更大限度地提高基础设施效率，同时加速跨团队的 AI 输出。

阅读博客

缓解模型冷启动问题

通过在 GPU 和主机之间动态交换模型存储，在不牺牲性能的情况下，降低模型部署成本。NVIDIA 的 GPU 显存交换技术可以让活跃的模型继续保留在 GPU 显存中，同时对非活跃的模型采用分页调度从 GPU 显存置换到主机内存上，从而支持在更少的 GPU 上运行更多的模型任务。这能够降低基础设施投入、减少资源空闲时间，并为生产环境部署提供高性价比的推理支持，尤其适用于内存密集型的大语言模型任务。

阅读博客

技术

通过跨 NVIDIA 的动态编排实现加速 AI 运营

NVIDIA Run:ai 为 NVIDIA 的 AI 平台带来了先进的编排和调度功能，使企业能够以最低的复杂性和最高的性能扩展 AI 运营。

NVIDIA AI Enterprise

NVIDIA AI Enterprise 可加速并简化生产级 AI 应用的开发和部署。它可缩短上市时间并降低基础设施成本，同时确保可靠、安全和可扩展的运营。NVIDIA AI Enterprise 现在包含 NVIDIA Run:ai。

了解详情

NVIDIA Mission Control

NVIDIA Mission Control 通过提供即时敏捷性、基础设施弹性和超大规模效率来简化 AI 运营。它通过包含 NVIDIA Run:ai 技术的全栈软件智能加速企业的 AI 实验进程。

了解详情

NVIDIA Enterprise AI Factory 的验证设计

NVIDIA 正在帮助企业构建经济高效、可扩展和高性能的 AI 工厂，以应对下一场工业革命。

了解详情

NVIDIA DSX OS

使用 NVIDIA DSX OS 构建和运营领先的 AI 云工厂。NVIDIA DSX OS 是一个开源、模块化和可组合的设计软件产品组合，可帮助合作伙伴可靠、高效、安全地大规模构建和运营 AI 工厂。

了解详情

合��伙伴

我们的合作伙伴

联系您的首选提供商或访问 NVIDIA 合作伙伴网络，了解为其解决方案提供 NVIDIA Run:ai 集成的领先生态系统提供商。

后续步骤

准备好开始了吗？

借助 NVIDIA Run:ai 的智能编排加速 AI 从开发到部署。

联系我们

NVIDIA Run:ai 文档

查找产品更新、安装和使用指南，以及 NVIDIA Run:ai 的支持详情。

阅读文档

需要选择合适的合作伙伴帮助？

查看通过 NVIDIA Run:ai 认证的 NVIDIA 合作伙伴列表。

了解详情

NVIDIA Run:ai

概览

借助动态编排加速 AI 工作流

什么是智能编排？

什么是 NVIDIA Run:ai？

NVIDIA Run:ai：通往生产级代理式 AI 的更简单途径

特性

AI 工作负载和 GPU 编排，以大规模构建、训练和部署 AI 工作负载

AI 原生工作负载编排

动态 GPU 分配

策略驱动型治理

开放式体系架构

现实世界中的 AI 加速：经过验证的大规模 GPU 编排

来自 NVIDIA Run:ai 的开源解决方案

借助 KAI Scheduler 在 Kubernetes 上大规模、公平高效地 AI 工作负载调度

使用 Grove 在 Kubernetes 上提供拓扑优化服务

借助 NVIDIA Run:ai Model Streamer，将模型加载时间从几分钟缩短到几秒钟

释放 AI 基础设施的全部潜力

更大限度地提高 GPU 利用率，最大限度地降低成本，并提高 AI 效率

从开发到部署无缝加速 AI

集中式编排以实现全面 AI 控制

跨越各种环境灵活集成

借助智能编排加速 AI 工作负载

企业 AI 加速

更大限度地提高 Token 吞吐量

缓解模型冷启动问题

技术

通过跨 NVIDIA 的动态编排实现加速 AI 运营

NVIDIA AI Enterprise

NVIDIA Mission Control

NVIDIA Enterprise AI Factory 的验证设计

NVIDIA DSX OS

合��伙伴

我们的合作伙伴

后续步骤

准备好开始了吗？

NVIDIA Run:ai 文档

需要选择合适的合作伙伴帮助？

联系我们，了解有关 NVIDIA Run:ai 详情