数据处理解决方案

数据处理

为 AI 做好准备的数据引擎。

NVIDIA cuDF | NVIDIA cuVS

概览

新的数据需求

企业想要完成数字化转型,AI 智能体需要持续调取数据,这会给原本并非为智能推理循环设计的数据基础设施带来巨大压力。

通过利用 NVIDIA cuDFNVIDIA cuVS 加速非结构化和结构化数据处理,企业可以利用其多年来投入的数据基础设施,满足 AI 带来的新数据量和速度需求。

全球最热门数据引擎均运行在这款加速计算平台上,助力智能体调取企业内表格类结构化数据,以及 PDF、邮件、图片、视频等非结构化数据。

NVIDIA cuDF 和 cuVS 被全球领先的数据平台所采用

了解领先的数据平台如何使用 NVIDIA cuDF 和 cuVS 来加速结构化分析和非结构化向量搜索,从而获得 AI 就绪的数据。

优势

为 AI 进行数据转型

巨大的性能提升

该加速计算平台可将数据处理速度提升最高 20 倍,助力企业更快落地各类全新应用场景。

显著节省成本

依托 NVIDIA 优化栈,企业成本降幅可达 80% 或以上的成本,从而帮助您的数据基础设施以更少的资源完成更多任务。

易于采用

全球最热门的分析和向量数据引擎都配备了即插即用的加速器,使采用更加简单,其中包括 Apache Spark、OpenSearch 等。

AI 就绪数据

90%的企业数据存储于 PDF、消息和电子邮件中,通过 NVIDIA cuVS 从这类数据中获取上下文,以及通过 NVIDIA cuDF 在几分钟内处理的数 TB 级结构化数据获取的真值,您的数据已为代理式 AI 做好准备。

产品

用于数据处理的 CUDA-X

cuDF 和 cuVS 是基于高度优化的 CUDA® 基础组件构建的 CUDA-X™ 工具套件,用于加速数据处理生态系统。

用于结构化数据的 cuDF

  • 在 NVIDIA GPU 上加速分析引擎
  • 包括用于 Apache Spark、Presto、Polars 和 DuckDB 的即插即用式加速器
  • 执行分析查询的时间从数小时缩短至数分钟

用于非结构化数据的 cuVS

  • 面向 RAG 和 AI 工作流的 GPU 加速向量搜索和索引构建
  • 与 OpenSearch、弹性、Milvus 等集成
  • 将向量索引构建时间从数小时缩短至数分钟

采用企业

数据处理生态系统

从分析 SQL 查询到向量搜索,各大企业正将 NVIDIA 的加速计算平台应用于其现有数据平台,以加速 AI 就绪的工作流。

NVIDIA Vera 上的数据处理

对于大规模运行代理式 AI 工作负载的企业,AI 智能体会显著提升对结构化企业数据的并发、连续的小规模查询能力。NVIDIA Vera 拥有高显存带宽和高速片内网络,在负载下提供每核心性能、高吞吐量和可预测性,从而支持更高的查询量和速度。在 Starburst 分析引擎中,NVIDIA Vera 处理查询的速度是 x86 的 3 倍,使查询执行时间从几分钟缩短至几秒钟,而 Redpanda 流式引擎的 p99 较 x86 提升了 6 倍,从而提升了数据引擎的可靠性。

即将推出。

资源

数据处理的最新动态

NVIDIA cuDF 和 cuVS 被全球领先的数据平台所采用

NVIDIA 的加速计算平台正在推动现代企业数据处理。 这些函数库已接入全球主流开源数据引擎(开发者月下载量超 2 亿次),广泛应用于企业数据平台、数据库及数据湖。

Snap 如何利用 NVIDIA cuDF 扩展 A/B 测试

Snap 每天处理超过 10 PB 的数据,用于 A/B 测试,覆盖超过 9.4 亿用户。 在谷歌云上使用 NVIDIA cuDF 加速 Apache Spark 使运行时间提升 4 倍,并节省 76% 的成本。

利用 Velox 和 NVIDIA cuDF 加速大规模分析

IBM 和 NVIDIA 将 cuDF 与 Velox 执行引擎集成,从而为 Presto 和 Apache Spark 实现 GPU 原生查询执行,分析速度比仅使用 CPU 的系统快近 12 倍。

数据是 AI 的真值与背景信息

听取 CEO 黄仁勋对数据处理生态系统在代理式 AI 时代所扮演角色的看法。

IBM 重塑数据处理

IBM watsonx.data SQL 分析引擎 Presto 由 cuDF 加速,可实现 5 倍的速度提升并节省 83% 的成本。

利用 Polars 在 2 秒内处理 1 亿行数据

Polars GPU 引擎在 GPU 上执行 Polars 代码,以实现大幅加速。

后续步骤

想了解更多内容?

获取有关数据处理新闻、内容和活动的最新动态。

cuDF

这款开源工具集面向结构化数据,借助 GPU 并行计算与高显存带宽,加速数据处理及分析工作流。

cuVS

用于非结构化向量搜索和数据聚类的开源库,可实现更快的向量搜索和索引构建。

注册以接收数据科学新闻