AMD, 인스팅트 MI300 공개 ··· AI 성능 엔비디아 추월

AMD가 6일(현지 시각) 자사의 AI 소프트웨어 기능을 향상시키기 위한 ROCm 6 개방형 소프트웨어 스택과 함께 AMD 인스팅트 MI300X (AMD Instinct™ MI300X) 가속기 제품군과 AMD 인스팅트 MI300A(AMD Instinct™ MI300A) APU를 발표했다.

특히 엔비디아를 직접 겨냥하고 있는 AMD 인스팅트 MI300X 가속기는 생성형 AI에 적합한 메모리 대역폭과 LLM(Large Language Model, 대형 언어 모델) 훈련 및 추론에 필요한 성능을 제공한다. 또한, 최신 AMD CDNA™ 3 아키텍처와 ‘젠 4(Zen 4)’ CPU를 결합한 인스팅트 MI300A APU는 HPC(Hight Performance Computing, 고성능 컴퓨팅) 및 AI 워크로드 처리 능력을 갖췄다.

AMD 인스팅트	아키텍처	GPU 컴퓨팅 유닛	CPU 코어	메모리	메모리 대역폭 (이론상 최대 대역폭)	프로세스 노드	AMD 4세대 인피니티 아키텍처 기반 3D 패키징 지원 여부
MI300A	AMD CDNA™ 3	228	젠 4 (24코어)	128GB HBM3	초당 5.3 TB	5nm / 6nm	O
MI300X	AMD CDNA™ 3	304	해당없음	192GB HBM3	초당 5.3 TB	5nm / 6nm	O
플랫폼	AMD CDNA™ 3	2,432	해당없음	1.5 TB HMB3	초당 5.3 TB (per OAM)	5nm / 6nm	O

AMD는 MI300X가 H100과 비교하여 텐서플로트(TensorFloat, TF), 부동 소수점(Floating Point), 블록플로트(Block-Float) 및 정수 데이터 유형에서 32%의 성능 우위를 제공한다고 주장했다.

데이터 유형별 MI300X AI 성능(최고 TFLOP) [출처=AMD]

MI300X 가속기는 192 GB HBM3 메모리 용량을 지원하는 반면, H100 SXM은 80 GB HBM3 메모리 용량을 제공한다. 또한, MI300X는 TSMC의 5nm 및 6nm 제조 공정 기술을 사용하는 반면, H100은 TSMC 4N 공정(4nm)을 사용하여 만들었다는 점도 주목할 만하다.

MI300은 AMD CDNA3 GPU 아키텍처를 기반으로 하며 TSMC의 5nm 및 6nm 핀펫(FinFET) 공정 기술로 제작된 칩을 사용하여 제조된다. 이 구성 요소에는 19,456개의 스트림 프로세서와 304개의 컴퓨팅 유닛이 있으며 최대 클록 주파수는 2.1 GHz이다. 이는 1.3 PFLOPS의 최고 FP16 성능과 2.6 POPS의 최고 INT8 성능을 제공한다.

이 구성 요소는 OAM(OCP Accelerator Module)으로 제공되며 패시브 냉각을 사용한다. 이 모듈에는 이론상 최대 메모리 대역폭이 초당 5.3 Tbyte인 192 GB의 HBM3 메모리가 포함되어 있다.

새로운 데이터 유형, 고급 그래프 및 커널 최적화, 최적화된 라이브러리, 최첨단 주의 알고리즘(state of the art attention algorithms)을 지원하는 ROCm 6는 MI300X와 함께 라마 2(Llama 2)에서 텍스트 생성 시 전체 지연 시간이 MI250에서 실행되는 ROCm 5 대비 약 8배 향상된 AI 가속 성능을 발휘한다.

AMD Instinct MI300A는 인스팅트 가속기는 적지만 공유 메모리를 갖춘 EPYC™ 프로세서를 갖추고 있어 향상된 효율성, 유연성, 프로그래밍 가능성을 제공하는 APU이다. AI와 고성능 컴퓨팅의 융합을 가속화하도록 설계됐다.

MI300A에는 228개의 컴퓨팅 유닛과 24개의 Zen 4 x86 CPU 코어가 128 GB 용량의 HBM3 메모리와 함께 포함되어 있다.

AMD 인스팅트 플랫폼은 최대 8개의 MI300X 가속기를 갖춘 생성형 AI 플랫폼으로, 1.5 TB의 HBM3 메모리 용량을 제공한다. AMD 인스팅트 플랫폼은 BLOOM 176B와 같은 LLM에서 추론을 실행할 경우 엔비디아 H100 HGX보다 최대 1.6배 향상된 처리량을 제공한다. AMD는 이 플랫폼이 단일 MI300X 가속기에서 라마 2와 같은 700억 개의 파라미터 모델에 대한 추론을 실행할 수 있는 유일한 옵션이라고 주장한다.

엔비디아에 따르면, H100은 업계 표준 MLPerf 벤치마크에서 자체 A100 대비 4.5배의 성능 기록을 세웠다. H100은 일반적으로 자연어 처리, 컴퓨터 비전, 생성형 AI에 사용되며, 가격은 미화 25,000달러에서 40,000달러 사이이다.

미국 정부는 H100과 A100의 성능이 뛰어나 수출 허가 없이 중국과 일부 국가에 수출을 금지하고 있으며, AMD MI300 시리즈에도 동일한 제한이 적용될 것으로 예상된다.

AMD의 CEO인 리사 수 박사(Dr. Lisa Su)는 “AMD는 대규모 클라우드부터 엔터프라이즈 클러스터, AI 지원 지능형 임베디드 기기 및 PC에 이르기까지 AI 시대를 정의할 엔드투엔드 인프라를 강화할 수 있는 독보적인 위치에 있다”라고 강조했다. 또 “우리는 생성형 AI를 위한 세계 최고 성능의 가속기인 인스팅트 MI300 GPU에 대한 수요가 매우 높다고 보고 있다. 현재 최대 규모의 클라우드 기업, 업계 최고의 서버 제공업체, 가장 혁신적인 AI 스타트업과 함께 데이터 센터 AI 솔루션 분야에서 상당한 모멘텀을 구축하고 있으며, 인스팅트 MI300 솔루션을 시장에 빠르게 보급하고자 긴밀히 협력하고 있다. AI 생태계 전반의 혁신 속도가 빨라지고 있다”라고 설명했다.

AMD는 이번에 여러 파트너와 함께 AMD 인스팅트 데이터 센터 AI 가속기 채택 사례를 발표했다.

▲ 마이크로소프트는 AI 워크로드에 최적화된 새로운 애저 ND MI300x v5 가상머신(Azure ND MI300x v5 Virtual Machine) 시리즈 구동을 위해 AMD 인스팅트 MI300X 가속기를 활용하는 방안에 관해 소개했다.

▲ 메타는 AI 추론 워크로드를 강화하기 위해 ROCm 6과 함께 데이터 센터에 AMD 인스팅트 MI300X 가속기를 추가하고 있으며, AMD가 라마 2 모델 제품군에 대한 ROCm 6 최적화를 수행한 것에 대해서도 인지하고 있다고 밝혔다.

▲ 오라클은 AMD 인스팅트 MI300X 가속기를 갖춘 OCI 베어 메탈 컴퓨팅 솔루션 공급 및 향후 자사 생성형 AI 서비스에 대한 AMD 인스팅트 MI300X 가속기 포함 계획을 발표했다.

▲ 다수의 대형 데이터 센터 인프라 제공업체가 자사 제품 포트폴리오 전반에 걸쳐 AMD 인스팅트 MI300 가속기를 탑재할 계획이라고 발표했다. 델은 AMD 인스팅트 MI300X 가속기와 파워엣지 XE9680(PowerEdge XE9680) 서버 솔루션을 통합해 생성형 AI 워크로드에 대한 획기적인 성능을 제공하는 확장 가능한 모듈식 제품을 공급한다. HPE는 엔터프라이즈 및 HPC 제품에 AMD 인스팅트 MI300 가속기를 도입한다는 계획을 발표했다. 레노버는 AMD 인스팅트 MI300X 가속기를 레노버 씽크시스템(Lenovo ThinkSystem) 플랫폼에 도입하여 소매, 제조, 금융 서비스 및 의료를 포함한 산업 전반에 AI 솔루션을 지원할 계획이다. 슈퍼마이크로는 자사의 AI 솔루션 포트폴리오 전반에 걸쳐 AMD 인스팅트 MI300 GPU를 제공할 예정이다. 이밖에도 에이수스(Asus), 기가바이트(Gigabyte), 인그라시스(Ingrasys), 인벤텍(Inventec), QCT, 위스트론(Wistron), 위윈(Wiwynn) 등도 AMD 인스팅트 MI300 가속기 기반의 솔루션을 공급할 계획이다.

▲ 얼라인드(Aligned), 아르콘 에너지(Arkon Energy), 시라스케일(Cirrascale), 크루소(Crusoe), 덴버 데이터웍스(Denvr Dataworks), 텐서웨이브스(Tensorwaves) 등의 전문 AI 클라우드 사업자 또한 개발자 및 AI 스타트업을 위해 AMD 인스팅트 MI300X GPU에 대한 액세스를 확장하는 제품을 제공할 예정이다.

AMD, 인스팅트 MI300 공개 ··· AI 성능 엔비디아 추월

2023-12-11

윤범진 기자, esmaster@elec4.co.kr