Arm Neoverse 기반의 AWS 그래비톤4 프로세서, 클라우드 혁신 가속화한다

2024-12-23
신윤오 기자, yoshin@elec4.co.kr

Arm과 AWS, 특수 실리콘 및 컴퓨팅 제공하기 위해 오랫동안 협력

클라우드 컴퓨팅 환경은 AI의 폭발적인 성장에 힘입어 극적인 변화를 겪고 있다. AI 애플리케이션이 더욱 정교하고 복잡해짐에 따라 강력하며 효율적이고, 비용 효율적인 컴퓨팅 솔루션에 대한 필요성이 그 어느 때보다 커지고 있다. 클라우드에 워크로드를 배포하는 고객들은 이러한 최신 워크로드의 요구사항을 충족하기 위해 어떤 인프라가 필요한지 재고하고 있다. 고객들의 요구사항은 성능 향상과 비용 절감부터, 규제 또는 지속 가능성 목표를 위한 에너지 효율성의 새로운 벤치마크 달성까지 다양하다.

Arm과 AWS는 특수 실리콘 및 컴퓨팅을 제공하기 위해 오랫동안 협력해 왔으며, 보다 효율적이고 지속 가능하며 강력한 클라우드를 위한 기반을 마련했다.

(위에서부터) ▲AWS 그래비톤4에서의 Llama LLM, ▲AWS 그래비톤 4의 HPC 및 EDA 워크로드 이점,
▲Arm Neoverse 기반 AWS 그래비톤3 도입의 에코시스템 이점

최신 Arm Neoverse V2 기반 AWS 그래비톤4 프로세서는 이전 세대 그래비톤3 프로세서보다 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공한다. 이러한 장점 덕분에 현재 에코시스템과 고객들이 AWS 프로세서를 많이 채택하고 있다.

Arm Neoverse V2 플랫폼에는 고성능 부동 소수점 및 벡터 명령어 지원과 같은 Armv9 아키텍처의 새로운 기능이 포함되어 있으며, SVE/SVE2, Bfloat16 및 Int8 MatMul과 같은 기능은 AI/ML 및 HPC 워크로드에 강력한 성능을 제공한다.

AI 워크로드 채택을 더욱 촉진하기 위해 Arm은 올해 초 선도적인 AI 프레임워크 및 소프트웨어 에코시스템과 협력하여 전체 ML 스택이 Arm에서 즉시 사용 가능한 추론 성능 최적화의 이점을 누릴 수 있도록 Arm Kleidi를 출시하여 개발자가 별도의 Arm 관련 전문 지식 없이도 워크로드를 구축할 수 있도록 했다. Arm은 PyTorch에서 이러한 최적화를 통해 초당 토큰 수(tokens/sec)와 첫 토큰 생성 시간(time-to-first-token) 지표를 크게 개선하여 AWS 그래비톤4에서 Llama 3 70B 및 Llama 3.1 8B와 같은 LLM을 실행할 수 있는 방법을 선보였다.

HPC 워크로드의 경우, 그래비톤4는 코어당 16% 더 많은 메인 메모리 대역폭과 vCPU당 두 배의 L2 캐시를 제공하는 등 그래비톤3E에 비해 성능이 크게 향상되었다. 이는 주로 메모리 대역폭에 제한이 있는 HPC 애플리케이션의 성능에 매우 중요하며, AWS는 아래 제시된 영역 전반에서 이점을 달성했다.

EDA 워크로드의 경우, Arm의 엔지니어링 팀이 프로덕션 실행을 통해 측정한 결과, 그래비톤4는 RTL 시뮬레이션 워크로드에서 그래비톤3보다 최대 37% 더 높은 성능을 제공하는 것으로 나타났다.

#소프트웨어 #클라우드