베라 루빈·블랙웰 기반 포트폴리오 확대…멀티테넌시·클라우드 인증 지원
HPE가 엔비디아와 협력해 차세대 AI 팩토리 및 슈퍼컴퓨팅 인프라 혁신을 추진한다.
HPE는 4월 6일, ‘HPE 기반 엔비디아 AI 컴퓨팅 포트폴리오(NVIDIA AI Computing Portfolio by HPE)’의 주요 혁신 사항을 발표하며, 대규모 AI 환경에서의 확장성과 성능을 동시에 강화하겠다고 밝혔다. 이번 발표는 컴퓨트, GPU, 네트워킹, 액체 냉각, 소프트웨어 및 서비스까지 포함한 풀스택 AI 인프라를 통합적으로 제공하는 데 초점을 맞췄다는 설명이다.

이번 포트폴리오는 대규모 AI 학습 및 추론 환경뿐 아니라 국가 단위의 소버린 AI 구축까지 고려해 설계됐으며, 아르곤 국립연구소, 독일 HLRS, 허드슨 리버 트레이딩, 한국과학기술정보연구원(KISTI) 등 주요 연구기관과 기업들이 해당 인프라를 채택한 것으로 전해졌다.
HPE는 자사의 슈퍼컴퓨팅 플랫폼 ‘HPE 크레이 슈퍼컴퓨팅 GX5000’에 엔비디아의 차세대 기술을 적용하며 HPC와 AI의 통합을 본격화했다. 특히 업계 최초로 엔비디아 베라 CPU 기반 컴퓨트 블레이드를 도입했으며, 최대 16개의 CPU를 탑재한 고집적 구조를 통해 고난도 AI 워크로드 대응 능력을 강화했다.
또한 포트당 800Gb/s 성능을 제공하는 ‘엔비디아 퀀텀-X800 인피니밴드’ 네트워킹을 지원해 대규모 시스템 환경에서의 데이터 처리 효율성과 확장성을 동시에 확보했다. 이를 통해 기업과 연구기관은 맞춤형 슈퍼컴퓨팅 환경을 구축할 수 있게 됐다는 설명이다.
HPE는 슈퍼컴퓨팅 영역을 넘어 ‘HPE AI 팩토리’ 포트폴리오도 확대했다. 엔비디아 베라 루빈 플랫폼과 블랙웰 아키텍처를 기반으로 한 신규 시스템을 통해 초대형 AI 모델 학습과 추론을 지원하는 인프라를 강화했다.
대표적으로 ‘HPE 기반 엔비디아 베라 루빈 NVL72’ 시스템은 최대 수조 개 파라미터 규모의 모델을 처리할 수 있도록 설계됐으며, CPU, GPU, NVLink 네트워크, DPU 등을 결합한 랙 스케일 아키텍처를 통해 대규모 AI 환경에서의 효율성을 높였다고 업체 측은 전했다.
이와 함께 ‘HPE 컴퓨트 XD700’ 서버는 랙당 최대 128개의 GPU를 지원해 이전 세대 대비 두 배 수준의 GPU 집적도를 제공하며, 공간과 전력 효율을 개선하면서 AI 처리량을 높이도록 설계됐다.
AI 인프라 운영 측면에서도 기능이 강화됐다. HPE AI 팩토리는 엔비디아 클라우드 파트너 인증을 기반으로 서비스 프로바이더의 구축 및 운영 과정을 간소화하며, 멀티 인스턴스 GPU(MIG)를 활용한 멀티테넌시 환경을 지원한다. 또한 레드햇 엔터프라이즈 리눅스 및 오픈시프트와의 연동을 통해 기업 환경에서의 활용성을 높였다.
여기에 엔비디아 ‘미션 컨트롤’ 소프트웨어를 통해 AI 워크로드 오케스트레이션, 모니터링, 자동 복구 기능까지 통합 제공함으로써 대규모 AI 인프라 운영 효율성을 강화했다는 것이다.
HPE는 이번 협력을 통해 HPC와 AI를 결합한 차세대 컴퓨팅 환경을 구축하고, 기업과 국가 기관이 대규모 AI 프로젝트를 보다 빠르게 추진할 수 있도록 지원한다는 방침이다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>















