F5-엔비디아, AI 추론 성능·효율 동시 강화하며 토큰당 비용 절감해

2026-04-16 김미혜 기자, elecnews@elec4.co.kr

BlueField-3 DPU 기반 인프라 통합… 처리량 최대 40%↑·지연 감소, 멀티테넌트 AI 플랫폼 지원

F5는 엔비디아(NVIDIA)와의 협력을 기반으로 AI 추론 인프라를 가속화하고 효율을 높이는 기능을 강화했다고 밝혔다.

이번 통합은 F5 ‘BIG-IP Next for Kubernetes’와 엔비디아 ‘블루필드-3(BlueField-3)’ DPU를 결합해 GPU 활용도를 높이고, 토큰 처리량과 지연 시간을 개선하는 데 초점을 맞췄다. 이를 통해 대규모 환경에서 안전한 멀티테넌트 AI 플랫폼 구축도 지원한다.

AI 시스템에서 토큰은 생성형 AI가 처리하는 단어·기호 단위의 데이터로, 처리 속도와 양은 사용자 경험과 인프라 효율성, 수익성과 직결된다. 최근 기업과 GPUaaS(GPU as a Service) 사업자들이 AI 서비스를 본격적인 수익 모델로 확장하면서, 토큰 처리량과 토큰당 비용, 최초 토큰 생성 시간(TTFT) 등은 핵심 성능 지표로 자리잡고 있다는 설명이다.

F5와 엔비디아의 공동 솔루션은 이러한 지표 개선을 목표로 설계됐다. BIG-IP Next for Kubernetes는 엔비디아 NIM 통계와 GPU 텔레메트리 데이터를 활용해 워크로드를 실시간으로 최적의 가속기에 배치하는 추론 인식 라우팅 기능을 제공한다. 이를 통해 자원 활용도를 높이고 지연 시간과 재처리를 줄일 수 있다고 업체 측은 전했다.

성능 개선 효과는 실제 테스트에서도 확인됐다. 톨리 그룹(The Tolly Group)의 검증 결과에 따르면, 블루필드-3 DPU로 가속화된 BIG-IP Next for Kubernetes는 토큰 처리량이 최대 40% 증가하고, 최초 토큰 생성 시간은 61% 단축됐으며, 응답 지연 시간도 34% 감소한 것으로 나타났다.

이 같은 성능 향상은 네트워킹, 암호화, 트래픽 관리 등을 DPU에서 분산 처리함으로써 CPU 부담을 줄이고 GPU가 추론 작업에 집중할 수 있도록 한 구조에서 비롯된다. 그 결과 동일한 인프라에서도 더 많은 토큰을 처리할 수 있어 토큰당 비용 절감과 GPU 활용도 향상이 동시에 가능해진다.

쿠날 아난드 F5 최고제품책임자는 “AI 인프라는 단순한 확장을 넘어 가속기당 경제적 가치를 극대화하는 방향으로 진화하고 있다”며, “F5는 엔비디아와 협력을 통해 AI 팩토리에서 토큰 생산을 실질적인 비즈니스 지표로 활용할 수 있도록 지원하고 있다”고 말했다.

케빈 디얼링 엔비디아 네트워킹 부문 수석 부사장은 “양사의 기술 결합을 통해 모델 변경 없이도 확장성과 비용 효율성을 갖춘 추론 환경을 구현할 수 있다”며, “기업이 AI 팩토리의 처리 역량을 효율적으로 확대할 수 있도록 지원할 것”이라고 밝혔다.

이번 기능 확장을 통해 BIG-IP Next for Kubernetes는 에이전트 기반 AI 워크플로우를 위한 추론 인식 라우팅, 동적 VRF 기반 멀티테넌시 보안, 통합 가시성 및 거버넌스 기능 등을 제공한다. 이를 통해 기업과 클라우드 사업자는 GPU 인프라를 여러 조직과 안전하게 공유하면서도 성능 간섭 없이 안정적인 서비스 운영이 가능하다는 것이다.

F5와 엔비디아는 이번 협력을 통해 AI 인프라를 단순한 연산 자원이 아닌, 비용과 성능을 동시에 최적화하는 ‘AI 팩토리’로 전환하는 데 초점을 맞추고 있다고 밝혔다.

100자평 쓰기

ASML, 1분기 순매출 88억 유로·순이익 28억 유로 기록

ST마이크로, 머신러닝 기반 모터 제어 소프트웨어 팩 공개해

클라우드플레어, AI 에이전트 시대 겨냥 ‘보안 메시 네트워크’ 발표

사이냅소프트, 구글 AI 기술 ‘터보퀀트’ 적용하며 ‘사이냅 OCR IX’ 메모리 효율 극대화해

딥엘, 음성 번역까지 확장하며 글로벌 비즈니스언어 장벽 해소 지원해

'알파컷', 8개월 만에 사용자 1만 5천 명 돌파하며 월 매출 10배 성장해

삼성전자, 유럽서 ‘AI TV’ 전략 공개하며 경쟁력 강화 나서

삼성전자, 스마트싱스 업데이트로 ‘패밀리 케어’ 기능 강화한다