개요

AI 추론을 수익성 있게 확장하는 방법은 무엇일까요?

AI 추론은 챗봇, 코파일럿, 창작 도구 등 AI를 경험하는 방식의 핵심으로, 현재 기하급수적으로 빠르게 확장되고 있습니다. 사용자 도입은 가속화되고 있으며, 에이전틱 워크플로우, 긴 사고형 추론, MoE(전문가 혼합) 모델을 통해 상호작용마다 생성되는 AI 토큰도 동시에 급증하고 있습니다. 

이러한 대규모 추론을 구현하기 위해, NVIDIA는 매년 데이터 센터 규모의 아키텍처를 제공하고 있습니다. 극한의 하드웨어와 소프트웨어 공동 설계는 성능의 획기적인 도약을 실현하고 토큰당 비용을 절감하여, 고급 AI 경험의 대규모 경제적 실현을 가능하게 합니다.

NVIDIA GB300 NVL72는 Hopper™ 대비 와트당 50배 더 많은 토큰과 35배 더 낮은 토큰 비용을 제공하여, 동일한 전력 예산 내에서 수익을 극대화하고 이익률을 높입니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.

NVIDIA Vera Rubin, 차세대 AI 프론티어 개척

NVIDIA Vera Rubin 플랫폼은 세계 최대 규모의 AI 팩토리를 확장하기 위해 현재 본격 생산 중인 7개의 새로운 칩으로 구성되어 있습니다.

선도적인 추론 공급업체들은 NVIDIA Blackwell의 오픈 소스 모델을 통해 AI 비용을 최대 10배까지 절감합니다.

Baseten, Deep Infra, Fireworks AI, Together AI는 NVIDIA Blackwell 플랫폼에서 실행되는 최적화된 추론 스택을 통해 산업 전반의 토큰당 비용을 절감하고 있습니다.

추론 성능으로 토큰 비용 절감

DeepSeek-R1 8K/1K 결과는 NVIDIA Blackwell GB200 NVL72가 Hopper H200 대비 15배의 성능 향상과 수익 기회를 제공합니다.

이점

최고 성능으로 수익 극대화

익스트림 하드웨어 및 소프트웨어 공동 설계를 갖춘 NVIDIA GB300 NVL72는 Hopper 대비 와트당 50배 더 많은 토큰을 제공하여, 동일한 전력 예산 내에서 AI 팩토리 수익을 극대화합니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.

최저 토큰 비용으로 이익률 확대

NVIDIA GB300 NVL72 시스템은 NVIDIA Hopper 플랫폼 대비 토큰당 비용이 35배 저렴하여, AI 팩토리의 이익률을 높여줍니다. 각 세대마다 성능 향상 속도가 인프라 비용을 훨씬 능가하며, 대규모 고급 AI 경험을 구현할 수 있는 더 나은 경제성을 제공합니다.

모든 모델과 사용 사례를 최적화하는 풀 스택

NVIDIA는 생성형 AI, 기존 ML, 과학 컴퓨팅, 생물학, 피지컬 AI 전반에 걸쳐 모든 모델을 지원합니다. NVIDIA는 지연 시간에 민감한 실시간 애플리케이션부터 고처리량의 배치 처리에 이르기까지 모든 사용 사례에 맞게 최상의 성능을 제공합니다. 이 플랫폼은 진화하는 워크로드와 비즈니스 요구 사항에 맞게 최적의 구성을 선택할 수 있는 최대의 유연성과 프로그래밍 기능을 제공합니다.

네이티브 통합으로 배포 가속화

Dynamo 및 TensorRT™ LLM을 포함한 NVIDIA의 실제 사용 소프트웨어와 파이토치, vLLM, SGLang, llm-d와 같은 선도적인 프레임워크와의 네이티브 통합은 가장 강력한 AI 추론 스택을 제공합니다. 모델 아키텍처와 추론 기술이 빠르게 발전함에 따라, NVIDIA 스택은 혁신에서 실제 운영에 이르는 가장 빠른 경로를 보장합니다.

플랫폼

극한의 하드웨어–소프트웨어 공동 설계

스마트 오케스트레이션이 없는 강력한 하드웨어는 잠재력을 낭비하며, 빠른 하드웨어가 없는 훌륭한 소프트웨어는 추론 성능이 저하됨을 의미합니다. NVIDIA의 추론 플랫폼은 공동 설계된 컴퓨팅, 네트워킹, 스토리지 및 소프트웨어를 갖춘 지속적으로 최적화된 풀스택 솔루션을 제공하여, 다양한 워크로드에서 최고 수준의 성능을 구현합니다. 

몇 가지 주요 NVIDIA 하드웨어 및 소프트웨어 혁신을 살펴보세요.

NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin 플랫폼은 Blackwell보다 10배 더 우수한 와트당 성능과 10배 더 저렴한 토큰당 비용을 제공합니다. 극단적인 공동 설계를 통해, 이 플랫폼은 대규모 컨텍스트 프리필을 위한 Rubin GPU와 빠른 디코딩을 위한 LPX를 결합해 속도와 확장성 사이의 트레이드오프를 없앴습니다.

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72는 72개의 B300 GPU를 130TB/s NVLink™로 연결하여 서로 원활하게 통신할 수 있으며, 거대한 전문가 혼합 모델을 대규모로 활용할 수 있습니다.

NVIDIA Dynamo

NVIDIA Dynamo는 AI 팩토리 규모로 멀티 노드 환경에서 모델을 배포하는 오픈 소스 분산 추론 서비스 프레임워크입니다. 추론을 분리하고, 라우팅을 최적화하며, 데이터 캐싱을 통해 비용 효율적인 스토리지 계층으로 메모리를 확장함으로써 분산 서비스를 간소화합니다.

TensorRT LLM

TensorRT LLM은 NVIDIA GPU에서 지속적으로 최적화된 고성능 실시간 LLM 추론을 위한 오픈 소스 라이브러리입니다. 모듈식 Python 런타임, PyTorch 네이티브 작성 방식, 안정적인 프로덕션 API를 기반으로 처리량을 극대화하고 비용을 최소화하며, 빠른 사용자 경험을 제공하도록 최적화되었습니다.

성능 Paretos 디코딩

복잡한 AI의 트레이드오프가 실제 결과로 어떻게 이어지는지 궁금해본 적 있으신가요? 아래의 성능 곡선에서 다양한 지점을 살펴보고, 극한의 하드웨어 및 소프트웨어 공동 설계가 어떻게 NVIDIA Blackwell Ultra를 가장 성능과 효율성, 수익성이 높은 선택으로 만들어 내는지 직접 확인해 보세요.

Toy Jensen
TPS / user
TPS / MW
시뮬레이션 채팅 경험

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72(FP4 Dynamo 세분화 포함). H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.

각 구성이 실제 사용자 경험으로 어떻게 이어지는지 궁금하신가요? ‘TJ와 함께 살펴보기’를 클릭해 혼자서 또는 TJ의 안내와 함께 곡선을 탐색해 보세요. 오른쪽의 시뮬레이션 채팅에서 그 결과가 어떻게 구현되는지도 확인할 수 있습니다.

 

고객 사례

업계 리더들이 AI 추론을 통해 혁신을 주도하는 방법

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

리소스

AI 추론 리소스 최신 소식

NVIDIA LaunchPad에서 추론 시작하기

현재 진행 중인 AI 프로젝트가 있나요? AI 솔루션을 테스트하고 프로토타입을 직접 만들어 보려면 신청하세요.

생성형 AI 및 LLM 학습 과정 살펴보기

NVIDIA의 포괄적인 학습 과정를 통해 생성형 AI 및 거대 언어 모델(LLM)에 대한 기술 역량의 수준을 높이세요.

NVIDIA LaunchPad에서 생성형 AI 추론 시작하기

NVIDIA NIM 추론 마이크로서비스 및 AI 모델에 대한 즉각적인 단기 액세스를 통해 생성형 AI 여정을 빠르게 추진할 수 있습니다. 무료로 제공됩니다.

NVIDIA NIM을 사용하여 프로덕션에 생성형 AI 배포하기

NVIDIA NIM을 사용하여 생성형 AI의 잠재력을 활용하세요. 이 영상에서는 NVIDIA NIM 마이크로서비스가 AI 배포를 프로덕션 환경에 최적화된 강력한 솔루션으로 변환하는 방법을 소개합니다.

Triton이 추론을 단순화하는 5가지 이유

Triton 추론 서버는 프로덕션에서 대규모로 AI 모델을 배포하는 작업을 간소화합니다. 오픈 소스 추론 서비스 소프트웨어를 통해 팀은 로컬 스토리지 또는 클라우드 플랫폼의 프레임워크에서 학습된 AI 모델을 GPU 또는 CPU 기반 인프라에 배포할 수 있습니다.

UneeQ

NVIDIA, NIM 공개

NVIDIA의 NIM 기술이 어떤 기능을 수행할 수 있는지 궁금하신가요? 놀라운 디지털 휴먼과 로봇의 세계를 탐구하고 NIM이 무엇을 가능하게 하는지 확인해 보세요.

다음 단계

시작할 준비가 되셨나요?

최신 문서, 튜토리얼, 기술 블로그 등을 비롯하여 AI 애플리케이션 개발을 시작하기 위해 필요한 모든 것을 살펴보세요.

추론 워크로드에 가장 적합한 하드웨어 찾기

NVIDIA 데이터센터 솔루션은 각 지역별 NVIDIA 파트너 네트워크(NPN) 파트너를 통해 구매할 수 있습니다. 파트너 네트워크를 통해 최신 NVIDIA 데이터센터 기술에 접근할 수 있는 유연하고 경제적인 옵션을 살펴보세요.

NVIDIA AI 추론에 대한 최신 정보를 알아보세요.

등록하여 NVIDIA에서 AI 추론의 최신 뉴스, 업데이트 등을 받아보세요.

AI 추론에 대한 NVIDIA의 최신 정보 받기