엔비디아, 블랙웰 울트라로 에이전틱 AI 성능 50배 향상

2026-02-23 김미혜 기자, elecnews@elec4.co.kr

GB300 NVL72, 토큰 비용 최대 35배 절감… 주요 클라우드 대규모 도입

엔비디아가 블랙웰 울트라(NVIDIA Blackwell Ultra) 플랫폼을 기반으로 에이전틱 AI(Agentic AI) 추론 성능과 비용 효율성을 대폭 개선했다고 밝혔다. 새 플랫폼을 적용한 GB300 NVL72 시스템은 기존 호퍼(Hopper) 플랫폼 대비 메가와트당 처리량을 최대 50배 향상시키고, 저지연 환경에서 100만 토큰당 비용을 최대 35배 절감했다는 설명이다.

최근 AI 에이전트와 코딩 어시스턴트가 확산되면서, 긴 컨텍스트 처리 능력과 실시간 응답성이 핵심 경쟁력으로 부상하고 있다. 오픈라우터(OpenRouter)의 ‘State of Inference’ 보고서에 따르면, 소프트웨어 프로그래밍 관련 AI 쿼리는 지난해 11%에서 약 50% 수준으로 급증했다. 이러한 워크로드는 다단계 작업을 수행하는 과정에서 밀리초 단위의 지연이 누적되기 때문에 저지연 추론과 대규모 연산 효율이 동시에 요구된다.

세미애널리시스 인퍼런스X(SemiAnalysis InferenceX)에 따르면, 블랙웰 울트라 플랫폼은 칩, 시스템 아키텍처, 소프트웨어 전반에 걸친 공동 설계를 통해 성능과 비용 효율을 동시에 개선했다. 특히 GB300 NVL72는 전문가 혼합(MoE) 기반 추론에서 메가와트당 처리량을 최대 50배까지 끌어올렸으며, 토큰당 비용을 최대 35배 낮췄다.

이 같은 성능 향상은 소프트웨어 최적화 기술과 긴밀한 하드웨어 통합 설계의 결과다. 엔비디아 텐서RT-LLM(TensorRT-LLM), 다이나모(Dynamo), 문케이크(Mooncake), SGLang 등의 지속적인 최적화는 지연 시간 전 구간에서 처리량을 향상시켰다. GPU 커널 최적화, NV링크 시메트릭 메모리(NVLink Symmetric Memory), 프로그래매틱 디펜던트 런치(Programmatic Dependent Launch) 기술을 통해 GPU 간 통신 효율과 연산 활용도를 극대화했다.

특히 블랙웰 울트라 기반 GB300 NVL72는 긴 컨텍스트 환경에서 강점을 보인다. 128,000 토큰 입력과 8,000 토큰 출력을 처리하는 대규모 코드 추론 워크로드에서 GB200 NVL72 대비 토큰당 비용을 최대 1.5배 낮춘다. NVFP4 연산 성능은 1.5배 향상됐고, 어텐션 처리 속도는 2배 빨라졌다.

주요 클라우드 사업자들도 이를 채택하고 있다. 마이크로소프트, 코어위브(CoreWeave), 오라클 클라우드 인프라스트럭처(OCI)는 에이전틱 코딩과 대화형 AI 서비스 환경에 GB300 NVL72를 도입했다. 코어위브의 엔지니어링 총괄 부사장 첸 골드버그는 “긴 컨텍스트 처리 성능과 토큰 효율성은 AI 프로덕션 환경의 핵심 요소”라며, “GB300 시스템은 대규모 워크로드에서도 예측 가능한 성능과 비용 효율을 제공한다”고 밝혔다.

엔비디아는 향후 루빈(Rubin) 플랫폼을 통해 또 한 번의 성능 도약을 예고했다. 루빈 플랫폼은 블랙웰 대비 메가와트당 최대 10배 높은 MoE 추론 처리량을 제공하고, 100만 토큰당 비용을 10분의 1 수준으로 낮출 계획이다고 밝혔다.

100자평 쓰기