엔비디아, 엑스AI 슈퍼컴퓨터 ‘콜로서스’ 가속화 위해 이더넷 네트워킹 지원
2024-10-31 신윤오 기자, yoshin@elec4.co.kr
스펙트럼-X 이더넷 네트워킹 플랫폼 사용해 10만 개 호퍼 GPU 시스템 실현
엔비디아가 NVIDIA Ethernet 네트워킹 기술을 통해 엑스AI(xAI)가 구축한 세계 최대 AI 슈퍼컴퓨터 ‘콜로서스(Colossus)’를 가속화하고 있다고 밝혔다.
미국 테네시주 멤피스에 위치한 엑스AI의 콜로서스 슈퍼컴퓨터 클러스터는 엔비디아 스펙트럼-X(Spectrum-X™) 이더넷 네트워킹 플랫폼을 사용해 10만 개의 엔비디아 호퍼(Hopper) GPU로 구성된 대규모 시스템을 구현했다.
스펙트럼-X™ 플랫폼은 표준 기반 이더넷을 사용해 멀티 테넌트, 하이퍼스케일 AI 팩토리에 뛰어난 성능을 제공하도록 설계됐으며, 원격 직접 메모리 액세스(RDMA) 네트워크를 지원한다.
콜로서스는 세계에서 가장 큰 AI 슈퍼컴퓨터로, 엑스AI의 그록(Grok) 거대 언어 모델(LLM) 제품군을 훈련하는 데 사용된다. 이 모델은 엑스 프리미엄(X Premium) 구독자를 위한 챗봇 기능을 제공하는 데도 활용된다. 현재 엑스AI는 콜로서스의 규모를 두 배로 늘려 총 20만 개의 엔비디아 호퍼 GPU로 구성하는 작업을 진행 중이다.
엔비디아와 엑스AI는 지원 시설과 최첨단 슈퍼컴퓨터를 단 122일 만에 구축했다. 일반적으로 이 정도 규모의 시스템을 구축하는 데 수개월에서 수년이 걸리는 기간을 생각하면 매우 빠른 속도이다. 첫 번째 랙이 바닥에 설치한 시점부터 훈련이 시작되기까지 단 19일이 걸렸다.
초대형 그록 모델을 훈련하는 동안 콜로서스는 전례 없는 네트워크 성능을 달성했다. 네트워크 패브릭의 세 계층 모두에서 이 시스템은 플로우 충돌로 인한 애플리케이션 지연 시간 저하나 패킷 손실이 전혀 발생하지 않았다. 또한, 스펙트럼-X 혼잡 제어를 통해 95%의 데이터 처리량을 유지했다.
표준 이더넷으로는 이러한 수준의 성능을 대규모로 달성할 수 없는데, 이는 데이터 처리량이 60%에 불과하면서 수천 건의 플로우 충돌을 일으키기 때문이다.
엔비디아가 NVIDIA Ethernet 네트워킹 기술을 통해 엑스AI(xAI)가 구축한 세계 최대 AI 슈퍼컴퓨터 ‘콜로서스(Colossus)’를 가속화하고 있다고 밝혔다.
미국 테네시주 멤피스에 위치한 엑스AI의 콜로서스 슈퍼컴퓨터 클러스터는 엔비디아 스펙트럼-X(Spectrum-X™) 이더넷 네트워킹 플랫폼을 사용해 10만 개의 엔비디아 호퍼(Hopper) GPU로 구성된 대규모 시스템을 구현했다.

스펙트럼-X™ 플랫폼은 표준 기반 이더넷을 사용해 멀티 테넌트, 하이퍼스케일 AI 팩토리에 뛰어난 성능을 제공하도록 설계됐으며, 원격 직접 메모리 액세스(RDMA) 네트워크를 지원한다.
콜로서스는 세계에서 가장 큰 AI 슈퍼컴퓨터로, 엑스AI의 그록(Grok) 거대 언어 모델(LLM) 제품군을 훈련하는 데 사용된다. 이 모델은 엑스 프리미엄(X Premium) 구독자를 위한 챗봇 기능을 제공하는 데도 활용된다. 현재 엑스AI는 콜로서스의 규모를 두 배로 늘려 총 20만 개의 엔비디아 호퍼 GPU로 구성하는 작업을 진행 중이다.
엔비디아와 엑스AI는 지원 시설과 최첨단 슈퍼컴퓨터를 단 122일 만에 구축했다. 일반적으로 이 정도 규모의 시스템을 구축하는 데 수개월에서 수년이 걸리는 기간을 생각하면 매우 빠른 속도이다. 첫 번째 랙이 바닥에 설치한 시점부터 훈련이 시작되기까지 단 19일이 걸렸다.
초대형 그록 모델을 훈련하는 동안 콜로서스는 전례 없는 네트워크 성능을 달성했다. 네트워크 패브릭의 세 계층 모두에서 이 시스템은 플로우 충돌로 인한 애플리케이션 지연 시간 저하나 패킷 손실이 전혀 발생하지 않았다. 또한, 스펙트럼-X 혼잡 제어를 통해 95%의 데이터 처리량을 유지했다.
표준 이더넷으로는 이러한 수준의 성능을 대규모로 달성할 수 없는데, 이는 데이터 처리량이 60%에 불과하면서 수천 건의 플로우 충돌을 일으키기 때문이다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>
100자평 쓰기
















