글 | 프레디 제프리스(Freddi Jeffries), 수석 콘텐츠 마케팅 담당자, ARM 미디어 프로세싱 그룹(MPG)
Mali-G71에 이어 출시한 Mali-G72는 현실감 높은 모바일 게임과 머신러닝을 디바이스에서 수행할 수 있도록 설계됨으로써, 가상현실 기능을 대폭 향상시켰다.
2017년 프리미엄 모바일 GPU
ARM은 지난 해 출시한 Mali-G71에 이어서 바이프로스트(Bifrost) 아키텍처 기반의 Mali-G72를 출시했다. 이전과는 비교할 수 없을 정도로 작아진 면적과 제한된 전력 내에서 훨씬 더 높은 성능을 제공한다. 현실감 높은 모바일 게임과 새롭게 떠오르는 머신러닝(Machine Learning, 이하 ML)을 디바이스 단에서 수행할 수 있도록 설계된 Mali-G72는 Mali-G71의 가상현실(Virtual Reality) 기능을 완전히 새로운 수준으로 향상시켰다.
Mali-G72 기반 디바이스는 Mali-G71를 탑재한 디바이스와 비교해 전반적인 그래픽 성능이 1.4배 향상됐으며, 이를 통해 미래에 등장할 그 어떤 신기술의 요구 사항도 충족시킬 수 있게 됐다. Mali-G72의 주요 특성은 다음과 같다.
· 2017 년형 디바이스 수준 성능 1.4배 향상될 것으로 전망
· 전력 효율성 25%, 면적 효율성 20% 개선
· 머신러닝 효율성 17% 증가
· 타일 버퍼(Tile Buffer) 증가, 타일러(Tiler) 확장성 제공, L1 캐시 확장 등, 다양한 측면의 바이프로스트 아키텍처 최적화
현실감 높은 모바일 게임의 부상
Mali-G72를 뒷받침하는 주요 원동력 중 하나는 모바일의 현실감 게임의 부상이다. 캔디 크러쉬(Candy Crush)와 같은 캐주얼 게임 시장의 규모는 여전히 크지만, 복잡도가 높은 게임이 창출하는 매출이 성장하고 있고, 이런 게임 타이틀의 43%를 현재 중국 모바일 게임 산업이 차지하고 있다. 디지털 레전드(Digital Legends)에서 출시한 1인칭 슈팅 게임(FPS: First Person Shooter)인 애프터펄스(Afterpulse)에 나오는 것과 같은 사실적 비주얼은 예전에는 모바일에서 구현하기 불가능했다.
▲ 모바일 하이엔드 FPS 게임, 애프터펄스 〈출처: 게임빌〉
상당량의 버텍스(Vertex) 처리로 인한 전력 소비와 다수의 드로우 콜(Draw Call), 더 복잡한 버텍스 쉐이더(Vertex Shader)와 프래그먼트 쉐이더(Fragment Shader)는 물론이고 다이내믹 쉐도우(Dynamic Shadow)와 같은 고급 그래픽 효과 등은 모바일 폼팩터에서 구현하기엔 터무니없이 높은 수준이었으며 게임 품질과 게임 시간을 모두 단축시켰다.
ARM은 ARM의 생태계를 통해 각자의 우선순위에 상관없이 시장 수요를 충족하도록 파트너 및 개발자와 함께 협력하며 기술지원을 하고 있다. ARM은 성능과 효율성을 극대화하기 위해 ARM의 우수한 최적화 툴과 함께 최신 고급 렌더링 기술이 지원되도록 디지털 레전드와 긴밀한 협업을 진행했다.
이를 통해 출력 데이터 처리량을 대폭 감소시켰으며, Mali-G71과 비교해 42% 절약할 수 있게 됐다. 픽셀 내장 버퍼(Pixel Local Storage)까지 더해지면 45%를 추가적으로 절약하며 입력 데이터 처리량을 68% 절감할 수 있다. 이와 같은 협업이 Mali-G72의 기능과 같은 혁신을 불러일으키고, 다양한 기능을 보유한 애프터펄스와 같은 게임을 모바일에서 즐기도록 만들어준다.
▲ 뉴주(Newzoo)의 상위 200대 매출 게임 연구 조사
차세대 가상현실 지원
VR도 진화하고 있다. ARM은 이처럼 흥미로운 시장을 계속해서 주도하기 위해서는 ‘게임’의 수준을 한층 더 높여야 한다는 사실을 인지하고 있었다. 기존 모바일 VR 디바이스 중 50% 이상이 Mali GPU를 탑재하고 있으며, 화웨이(Huawei)의 Mali 기반 Mate 9은 시장에 출시된 데이드림(Daydream) 인증 VR 디바이스 중 하나다. 따라서 지속적인 혁신이 최우선이다.
ARM은 GDC 2017(Game Developer Conference)에서 최신 서킷(Circuit) VR 데모를 통해 일반적으로 VR에서 필요한 것처럼 여러 번 그리는 오버헤드를 줄이기 위해 모바일 멀티뷰(Multiview)와 같은 기술을 개발하고 있다고 발표했다. 고해상도에서 보는 사람의 시각 한 가운데 지점인 중심에 맞춰 이미지의 단면을 보는 포비티드 렌더링(Foveated Rendering) 기능을 추가하면 렌더링해야 할 시야가 순식간에 4개 이상으로 늘어난다. 이때 멀티뷰 기능이 매우 유용하다.
그 외에도 다중 샘플 안티 알리아싱(Multi Sample Anti-Aliasing)와 같은 기술은 VR 헤드셋과 근거리에서 가끔 보이는 계단현상(Jagged Effect)을 줄이고 매끈하게 보여야 하는 양쪽 라인에 혼합 픽셀을 추가한다. Mali-G72는 시스템 비용을 최소화해 8 샘플 또는 16 샘플의 안티 알리아싱을 구현한다. 물론 이 모든 것이 텍스처를 압축하는 기술인 ASTC(Adaptive Scalable Texture Compression)와 같은 기발한 혁신에 더해져 제공되기 때문에 외부 메모리 사용량을 유지하면서 더 높은 품질의 텍스처를 맵핑할 수 있다.
디바이스에 최적화된 머신러닝
앞서 언급한 것처럼 머신러닝(ML)은 모바일의 또 다른 주요 활용 사례다. 이것이 무엇을 뜻하는지 좀 더 명확하게 설명하도록 하겠다. 지능형 연결(Intelligent Connection) 작업을 시작하도록 신경망을 훈련시키는 대규모의 데이터 세트와 함께 ML은 클라우드에서 자주 수행된다. 하지만 디바이스 자체에서 ML을 수행해야 할 필요가 점차 증가하고 있다. 번역과 같이 단순한 애플리케이션을 클라우드를 통해 대량의 데이터를 계속해서 전송하기엔 비용도 많이 들고 속도도 느리다.
다른 사람들은 어떨지 모르겠지만 개인적으로 이러한 지연시간(Latency)을 기다려 줄 만큼 여유가 없다. 필자는 스마트폰이 사용자가 원하는 바를 사용자가 필요할 때 실행해줘야 한다고 생각한다. 아무리 훌륭한 스펙을 지닌 스마트폰이라도 연결이나 데이터 전송이 지연된다면 사용하고 싶은 마음이 없어진다. 이런 이유로 디바이스 자체에서 ML 추론을 수행하는 것에 주목하고 있는 것이다.
이러한 요구 사항을 잘 파악한 화웨이는 Mali-G71을 라이선스 받은 지 8개월 만에 이를 탑재한 최신 프리미엄 디바이스인 Mate 9을 출시했다. Mate 9의 ML 알고리즘은 어떤 애플리케이션을 사용자가 가장 많이 사용하는지 파악하고 최상의 성능을 낼 수 있도록 지능적으로 전력과 성능의 우선순위를 정한다. 혁신적인 바이프로스트(Bifrost) 아키텍처가 적용된 Mali-G71은 이미 ML 추론에 능숙하며 이는 아래 차트에서 확인할 수 있다. Mate 9에 탑재된 Mali-G71 MP8은 비슷한 성능 수준의 저가 외장형 그래픽 카드와 비교해도 알렉스넷(AlexNet)을 87% 빠르게 처리한다.
Mali-G72는 이보다 더 우수한 성능을 지니고 있다. 연산 최적화와 캐시 증가 측면에서 진가를 발휘하며, Mali-G72는 가장 효율적이면서 우수한 성능을 보유한 ML을 제공할 수 있도록 대역폭을 감소시킨다. 그렇다면 ARM은 이러한 활용 사례를 어떻게 지원하는 것인가?
바이프로스트 아키텍처 혁신
바이프로스트(Bifrost)의 핵심 기능인 CPU와 GPU 간 전체 시스템 일관성 기능을 비롯한 색인 기반 포지션 쉐이딩(Position Shading), 구문(Clause) 단위 실행 및 쿼드(Quad) 외에도, Mali-G72에는 새로운 기능도 몇 가지 추가됐다. 그래픽 성능과 확장성 모두 향상됐을 뿐만 아니라, 연산 효율 최적화를 통해 Mali-G72는 내년에 출시될 프리미엄 스마트폰 제품과 VR, ML, 그리고 기타 다양한 디바이스에 적용할 수 있는 최고의 선택이다. 그렇다면 ARM은 Mali-G72에 어떤 작업을 했는가?
GPU가 처리하는 해당 타일(Tile)에 더 많은 데이터를 보유할 수 있도록 타일 버퍼 메모리를 확장했다. 그 결과, 외부 메모리 접근 없이 타일 내에서의 처리량이 증가했으며 MSAA(Multi Sample Anti-Aliasing)와 PLS(Pixel Local Storage)의 활용이 늘어나고 성능과 화질이 획기적으로 개선됐다. 거의 사용되지 않는 일부 명령어들을 제거하고 이를 보다 단순한 명령어 조합으로 대체해 면적과 전력을 모두 낮췄으며, 이를 위해서 실행 엔진(Execution Engine) 데이터 경로를 재설계했다.
이로 인해 파트너사들의 도입 비용이 감소했고 전체적인 시스템 효율성은 향상됐다. 더 복잡한 수준의 그래픽을 지원하기 위해서 가장 많이 사용되는 역수 제곱근과 같은 복잡한 연산을 최적화했으며 처리량을 높이기 위해 타일러에 존재하는 캐시를 늘렸다. 이러한 변화는 고성능 시스템의 성능을 개선하고, 최종 사용자에게 더 나은 그래픽 경험을 제공한다.
ARM은 필요로 하는 대역폭을 더욱 줄이기 위해 L1 캐시와 라이트백(Writeback) 캐시의 크기를 모두 확장했으며 명령어 캐시 로직(Logic)을 변경해 활용도를 높이고 전반적인 면적이나 전력을 증가시키지 않고 캐시 미스(Cache Miss)를 줄이도록 했다. 이렇게 세심하게 성능과 효율성 간의 균형을 잡는 것은 다양한 디바이스를 적용할 수 있는 칩을 개발하고자 하는 파트너들에게 매우 중요하다.
요약
바이프로스트 아키텍처 기반의 Mali-G72는 다양한 혁신적인 기능들이 적용되어 전력 효율성 25% 향상, 실리콘 mm2 당 성능 20% 향상, ML 효율성 17% 개선 등 이전 세대와 비교해 획기적인 발전을 이뤘다. 이에 더해 전반적인 디바이스 수준 성능이 40% 향상됐기 때문에 내년에 출시될 프리미엄 모바일 디바이스에 탑재될 Mali-G72가 우리의 기대를 뛰어넘는 것은 이제 시간문제일 뿐이다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>