AI 추론 솔루션

NVIDIA 추론 플랫폼

가장 성능과 효율성, 수익성이 높은 AI 팩토리를 구동합니다.

개요

AI 추론을 수익성 있게 확장하는 방법은 무엇일까요?

AI 추론은 챗봇, 코파일럿, 창작 도구 등 AI를 경험하는 방식의 핵심으로, 현재 기하급수적으로 빠르게 확장되고 있습니다. 사용자 도입은 가속화되고 있으며, 에이전틱 워크플로우, 긴 사고형 추론, MoE(전문가 혼합) 모델을 통해 상호작용마다 생성되는 AI 토큰도 동시에 급증하고 있습니다.

이러한 대규모 추론을 구현하기 위해, NVIDIA는 매년 데이터 센터 규모의 아키텍처를 제공하고 있습니다. 극한의 하드웨어와 소프트웨어 공동 설계는 성능의 획기적인 도약을 실현하고 토큰당 비용을 절감하여, 고급 AI 경험의 대규모 경제적 실현을 가능하게 합니다.

NVIDIA GB300 NVL72는 Hopper™ 대비 와트당 50배 더 많은 토큰과 35배 더 낮은 토큰 비용을 제공하여, 동일한 전력 예산 내에서 수익을 극대화하고 이익률을 높입니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.

NVIDIA Vera Rubin, 차세대 AI 프론티어 개척

NVIDIA Vera Rubin 플랫폼은 세계 최대 규모의 AI 팩토리를 확장하기 위해 현재 본격 생산 중인 7개의 새로운 칩으로 구성되어 있습니다.

블로그 읽기

선도적인 추론 공급업체들은 NVIDIA Blackwell의 오픈 소스 모델을 통해 AI 비용을 최대 10배까지 절감합니다.

Baseten, Deep Infra, Fireworks AI, Together AI는 NVIDIA Blackwell 플랫폼에서 실행되는 최적화된 추론 스택을 통해 산업 전반의 토큰당 비용을 절감하고 있습니다.

블로그 읽기

추론 성능으로 토큰 비용 절감

클릭하여 이미지 확대

DeepSeek-R1 8K/1K 결과는 NVIDIA Blackwell GB200 NVL72가 Hopper H200 대비 15배의 성능 향상과 수익 기회를 제공합니다.

이점

최고 성능으로 수익 극대화

익스트림 하드웨어 및 소프트웨어 공동 설계를 갖춘 NVIDIA GB300 NVL72는 Hopper 대비 와트당 50배 더 많은 토큰을 제공하여, 동일한 전력 예산 내에서 AI 팩토리 수익을 극대화합니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.

최저 토큰 비용으로 이익률 확대

NVIDIA GB300 NVL72 시스템은 NVIDIA Hopper 플랫폼 대비 토큰당 비용이 35배 저렴하여, AI 팩토리의 이익률을 높여줍니다. 각 세대마다 성능 향상 속도가 인프라 비용을 훨씬 능가하며, 대규모 고급 AI 경험을 구현할 수 있는 더 나은 경제성을 제공합니다.

모든 모델과 사용 사례를 최적화하는 풀 스택

NVIDIA는 생성형 AI, 기존 ML, 과학 컴퓨팅, 생물학, 피지컬 AI 전반에 걸쳐 모든 모델을 지원합니다. NVIDIA는 지연 시간에 민감한 실시간 애플리케이션부터 고처리량의 배치 처리에 이르기까지 모든 사용 사례에 맞게 최상의 성능을 제공합니다. 이 플랫폼은 진화하는 워크로드와 비즈니스 요구 사항에 맞게 최적의 구성을 선택할 수 있는 최대의 유연성과 프로그래밍 기능을 제공합니다.

네이티브 통합으로 배포 가속화

Dynamo 및 TensorRT™ LLM을 포함한 NVIDIA의 실제 사용 소프트웨어와 파이토치, vLLM, SGLang, llm-d와 같은 선도적인 프레임워크와의 네이티브 통합은 가장 강력한 AI 추론 스택을 제공합니다. 모델 아키텍처와 추론 기술이 빠르게 발전함에 따라, NVIDIA 스택은 혁신에서 실제 운영에 이르는 가장 빠른 경로를 보장합니다.

플랫폼

극한의 하드웨어–소프트웨어 공동 설계

스마트 오케스트레이션이 없는 강력한 하드웨어는 잠재력을 낭비하며, 빠른 하드웨어가 없는 훌륭한 소프트웨어는 추론 성능이 저하됨을 의미합니다. NVIDIA의 추론 플랫폼은 공동 설계된 컴퓨팅, 네트워킹, 스토리지 및 소프트웨어를 갖춘 지속적으로 최적화된 풀스택 솔루션을 제공하여, 다양한 워크로드에서 최고 수준의 성능을 구현합니다.

몇 가지 주요 NVIDIA 하드웨어 및 소프트웨어 혁신을 살펴보세요.

NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin 플랫폼은 Blackwell보다 10배 더 우수한 와트당 성능과 10배 더 저렴한 토큰당 비용을 제공합니다. 극단적인 공동 설계를 통해, 이 플랫폼은 대규모 컨텍스트 프리필을 위한 Rubin GPU와 빠른 디코딩을 위한 LPX를 결합해 속도와 확장성 사이의 트레이드오프를 없앴습니다.

7개의 새로운 칩, 하나의 AI 슈퍼컴퓨터 살펴보기

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72는 72개의 B300 GPU를 130TB/s NVLink™로 연결하여 서로 원활하게 통신할 수 있으며, 거대한 전문가 혼합 모델을 대규모로 활용할 수 있습니다.

GB200 NVL72에 대한 탁월한 AI 추론 성능 경험

NVIDIA Dynamo

NVIDIA Dynamo는 AI 팩토리 규모로 멀티 노드 환경에서 모델을 배포하는 오픈 소스 분산 추론 서비스 프레임워크입니다. 추론을 분리하고, 라우팅을 최적화하며, 데이터 캐싱을 통해 비용 효율적인 스토리지 계층으로 메모리를 확장함으로써 분산 서비스를 간소화합니다.

Dynamo를 통해 멀티 노드에 원활하게 배포

TensorRT LLM

TensorRT LLM은 NVIDIA GPU에서 지속적으로 최적화된 고성능 실시간 LLM 추론을 위한 오픈 소스 라이브러리입니다. 모듈식 Python 런타임, PyTorch 네이티브 작성 방식, 안정적인 프로덕션 API를 기반으로 처리량을 극대화하고 비용을 최소화하며, 빠른 사용자 경험을 제공하도록 최적화되었습니다.

TensorRT LLM을 통한 추론 최적화

성능 Paretos 디코딩

복잡한 AI의 트레이드오프가 실제 결과로 어떻게 이어지는지 궁금해본 적 있으신가요? 아래의 성능 곡선에서 다양한 지점을 살펴보고, 극한의 하드웨어 및 소프트웨어 공동 설계가 어떻게 NVIDIA Blackwell Ultra를 가장 성능과 효율성, 수익성이 높은 선택으로 만들어 내는지 직접 확인해 보세요.

TPS / user

–

TPS / MW

–

시뮬레이션 채팅 경험

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72(FP4 Dynamo 세분화 포함). H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.

각 구성이 실제 사용자 경험으로 어떻게 이어지는지 궁금하신가요? ‘TJ와 함께 살펴보기’를 클릭해 혼자서 또는 TJ의 안내와 함께 곡선을 탐색해 보세요. 오른쪽의 시뮬레이션 채팅에서 그 결과가 어떻게 구현되는지도 확인할 수 있습니다.

NVIDIA Dynamo AI Configurator로 더 자세히 알아보기

고객 사례

업계 리더들이 AI 추론을 통해 혁신을 주도하는 방법

더 많은 고객 사례

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon