IPU: New Hardware for “FOR THE AI”
영국의 스타트업 기업인 그래프코어(Graphcore)가 머신 러닝(Machine learning, 기계학습) 워크로드를 실행하도록 설계된 IPU(Intelligence Processing Unit)라는 새로운 개념의 프로세서로 벤처캐피털(VC)과 유력 IT 기업으로부터 주목받고 있다. 그래프코어의 콜로서스(Colossus) IPU는 1,216개의 각 IPU 코어마다 프로세서 내 메모리 타일을 탑재했다. 지난 2월 그래프코어는 기자회견을 열고 한국 지사 설립을 공식 선언했다. 이날 기자회견에는 강민우 한국지사장을 비롯해 그래프코어의 파브리스 모이잔(Fabrice Moizan) 미국 영업 및 비즈니스 총괄 부사장이 참석했다
클라우드 기반 AI(데이터센터)의 경우, 현재 대부분의 컴퓨팅은 CPU나 GPU에 의해 제공된다. 그러나 AI 컴퓨팅의 성능 요구를 충족시키기 위해 칩 아키텍처가 크게 변화하고 있다.
이미지 처리는 신경망에 의해 효율적으로 처리되는 행렬과 관련된 병렬 작업이 필요하기 때문에, GPU가 전통적으로 신경망 구현에 매력적이었다. 반면, 기존 CPU는 AI 작업을 수행하도록 프로그래밍 할 수 있지만 동일한 연산을 실행하는 데 더 오래 걸리고 더 많은 전력을 소비한다. 때문에 일각에서는 FPGA나 ASIC의 급성장을 점치기도 한다.
이미 IBM, 인텔, 퀄컴, 자일링스와 같은 반도체 회사들은 전력 효율을 개선하고 처리량(Throughput)을 향상시키기 위해 ASIC를 설계하고 있다. 이 회사들은 효율적으로 훈련될 수 있는 AI 칩 개발에 중점을 두고 있다. 이것은 학습할 수 있는 데이터를 공급하여 머신 러닝 모델을 준비하는 단계다. 추론은 이미 훈련된 모델을 가져와서 유용한 예측을 하는 데 사용하는 과정이다.
AI는 기존 프로세서 설계 회사들의 지배력을 와해시킬 수 있는 게임 체인징 기술로 부상했다. 초기에 AI는 병렬 처리에 더 적합한 GPU로 이동하기 전에 CPU에서 구동했다. 여전히 GPU는 고밀도 부동소수점 연산에 뛰어나지만, 일부 업체들은 맞춤형 하드웨어로 더 높은 처리량과 에너지 효율을 보고했다.
상당수의 IT 회사들은 그들의 신경망 아키텍처 구현을 위해 CPU 대신 맞춤형 하드웨어를 선택했다. 집적회로(IC) 로직과 메모리 계층을 커스터마이징 하면 이전 세대 GPU보다 훨씬 빠르고 에너지 효율이 높은 맞춤형 하드웨어 신경망을 생성할 수 있다.
2017년 7월 중국은 오는 2030년까지 세계 1위의 AI 강국으로 도약하겠다는 ‘차세대 AI 발전 계획’을 발표했다. 화웨이(Huawei)는 서버 시장을 위한 새로운 AI 칩 ‘Ascend 910’을 비롯해 AI 학습 클러스터 ‘Atlas 900’을 공개했다. 또한 화웨이는 자체 스마트폰용 AI 칩셋인 ‘Kirin 990’를 발표했다. 알리바바는 자사 최초의 자체 AI 칩 ‘Hanguang 800’을 발표했다.
호라이즌 로보틱스(Horizon Robotics)는 감시 카메라뿐만 아니라 자율주행 차량용 AI 칩 개발을 하고 있다. 이 회사는 최근 자체 개발한 ‘BPU(Brain Processing Unit)’ 아키텍처를 채용한 2세대 AI 칩 ‘Journey 2.0’을 발표했다.
미국에서는 인텔, IBM, 퀄컴, AMD, 엔비디아 등이 클라우드 AI 칩을 발표했거나 이미 공급 중이다. 클라우드 컴퓨팅 분야에서 입지를 강화하려는 구글, MS, 아마존과 같은 비 반도체 회사들도 클라우드용 AI 칩 개발에 대규모 투자를 하고 있다.
구글, 바이두, 알리바바와 같은 데이터 회사들뿐만 아니라 반도체 공룡기업들 틈바구니에서 그래프코어와 같은 스타트업도 AI 칩 시장서 경쟁을 펼치고 있다.
현재 학습 부분은 엔비디아의 GPU가 주도하고 있으나, 구글이 ASIC의 한 형태인 자체 TPU(Tensor Processing Unit)를 개발함으로써 업계에 경쟁을 촉발했다. 사실 요즘 반도체 업계를 뜨겁게 달구고 있는 시장은 추론 부분이다. 추론은 클라우드 또는 엣지에서 실행할 수 있다. 그래프코어 IPU는 학습과 추론 모두 지원한다.
모이잔 총괄 부사장의 발표와 일문일답 전문 바로가기
About Graphcore…
마치 예술 작품처럼 보이는 이 이미지는 계산 그래프 개념이 그래프코어의 그래프 프로세서(Colossus)와 그래프 프로그래밍 프레임워크인 Poplar®(포플러)에 어떻게 매핑 되는지를 보여줍니다. 강화학습(Reinforcement Learning)을 위한 신경망(Neural network)을 시각화한 이 이미지는 마치 사람의 뇌를 보는 것 같습니다. 머신 러닝과 딥 러닝(Deep learning, 심층학습)의 미래는 사람의 뇌처럼 활동할 것입니다. 때문에 저희는 계속해서 혁신을 도모하고 있습니다.
그래프코어는 AI 가속기 칩을 개발, 생산하고 있습니다. 저희는 이 그래프 프로세서를 IPU라고 부릅니다. IPU는 Intelligence Processing Unit, 즉 지능처리장치를 의미합니다. 이 프로세서와 함께 소프트웨어 스택(POPLAR™)을 공급합니다. 또한 데이터센터와 서버에 사용되는 IPU 모듈과 시스템을 판매합니다.
그래프코어는 신생기업입니다. 그러나 지금까지 유수의 투자사와 기술기업으로부터 3억 1천만 달러 이상의 투자 유치를 했습니다. 투자사로는 미국 벤처캐피탈 세콰이어 캐피탈을 비롯해 마이크로소프트(MS), BMW, 델(Dell), 삼성, 보쉬 등이 있습니다. 삼성으로부터도 투자를 받았기에, 오늘 이 자리에 있는 것이 아닌가 싶습니다. 삼성은 향후 AI 산업을 주도할 것으로 생각하며, 그래프코어의 주요 고객사이기도 합니다.
머신 인텔리전스(Machine Intelligence)의 진화 단계를 보면, 1단계는 단순히 물체를 인식(Object perception)하는 수준이었습니다. 현재 2단계 에는 자연어 처리, 음성인식, 인터넷 검색 등에 적용되고 있습니다. 머신 러닝의 미래인 3단계는 과거를 학습함으로써 미래를 예측하게 될 것입니다.
현재 자율주행 차량은 단순히 이미지를 인식함으로써 의사결정을 내리게 되는데, 향후에는 과거 경험을 기반으로 주변 환경에서 어떤 일이 일어날지 예측하고 판단하는 완전 자율주행 차량으로 진화할 것입니다. 머신 러닝과 딥 러닝의 미래는 사람의 뇌처럼 사고하게 될 것입니다.
머신 러닝 워크로드를 실행하는 과정을 보면, 오래된 기술인 CPU를 사용하는 경우에는 전력 소모가 많습니다. GPU의 경우는 머신 러닝을 처리하는데 있어서 상당히 훌륭한 기술입니다. 하지만 대부분 그래픽적으로 치우쳐 있습니다. 때문에 지능을 처리함에 있어서 약간의 제약 요소가 있습니다. IPU를 설계한 이유가 여기에 있습니다. IPU는 향후 머신 러닝이나 딥 러닝에서 겪게 될 문제를 해결하는 데 집중하고 있습니다. 지금까지 다양한 프로세서가 소개됐지만 IPU는 사람의 뇌처럼 동작합니다. 저희는 그래프 기반의 기술이라는 점에서 사명(社名)을 그래프코어라고 했습니다.
그럼, IPU와 GPU는 어떻게 다를까요? 한 마디로 아키텍처가 다릅니다. 그래프코어 IPU는 그래프에 기반을 두고 있으며 동시에 여러 가지 문제를 해결할 수 있습니다. 또한 기존의 모델에 대해서 GPU 보다 월등한 성능으로 처리할 수 있습니다. 향후 미래의 기술에 대해서도 처리 능력이 훨씬 뛰어납니다. 현재 GPU로는 불가능하거나 생각하지 못했던 작업을 그래프코어 IPU를 통해 처리할 수 있습니다.
그래프코어 IPU의 효율성을 입증하기 위해, 자연어 처리를 위한 BERT 모델을 훈련(Training)에 적용에 봤습니다. BERT는 업계에서 검색 엔진이나 음성인식을 하는데 있어서 광범위하게 사용하는 언어 모델입니다. BERT 모델로 IPU를 평가했을 때, IPU가 GPU와 동등한 성능을 보이거나 어떤 경우에 더 뛰어난 성능을 나타냈습니다. 여기서 테스트한 것은 모델을 훈련하는 데 걸리는 시간입니다. 예를 들어, 자연어 처리를 함에 있어서 Wikipedia을 기반으로 해서 알고리즘을 완벽하게 하는 데까지 걸리는 시간을 테스트한 결과가 그림에 나와 있습니다.
똑같은 BERT 모델을 추론(Inference)에 적용해 테스트해 봤습니다. 예를 들어, 대개 구글이나 네이버 같은 검색 엔진을 통해 검색하게 되는데, IPU가 뛰어난 검색 결과를 나타냈습니다. 또 다른 사례로, 컴퓨터 비전을 들 수 있습니다. 지금까지 단순히 고양이를 탐지하는 것만으로도 괜찮았습니다. 하지만 이제는 HD 이미지를 활용하며 비디오 분석이 상당히 중요해졌습니다. 이런 상황에서, 새로운 모델에 대해서는 GPU가 올바른 기술이 아니라고 생각합니다. IPU가 이러한 새로운 모델에 대해서는 훨씬 뛰어납니다.
특히, 자율주행 차량에서도 마찬가지입니다. 일반적으로 자율주행 차량은 12개의 고화질(HD) 카메라를 장착합니다. 이밖에도 새로운 기술들을 요구하기 때문에 IPU가 적합합니다. 단순히 데이터센터나 자율주행 차량뿐만 아니라, 금융업계나 헬스케어 분야에서도 적용될 수 있습니다.
또 다른 사례로, 금융업계에서 사용하는 AI 모델로 MCMC(Markov Chain Monte Carlo) 확률 모델이 있습니다. MCMC 확률 모델을 훈련하는데 걸리는 시간이 IPU가 GPU보다 26배 빠릅니다.
현재 가장 큰 고객인 마이크로소프트(MS)가 작년 10월 최초로 IPU 기반의 서비스를 발표했습니다. MS 애저(Azure)의 경우, 스타트업에 투자한 사례가 없음에도 그래프코어의 장기 프로젝트에 투자했다는 점에서 상당히 놀라운 성과라고 할 수 있습니다. MS가 IPU45를 선택한 이유는 고객에게 새로운 기술에 대해서 여러 가지 선택지를 제공하기 위해서입니다. 그래프코어 기술을 사용하기 원한다면 MS 애저를 활용하면 됩니다. 또한 서버 차원에서는 델을 사용하면 됩니다.
환상적인 하드웨어를 구동하기 위해서는 소프트웨어가 필요합니다. 현재 AI 플랫폼을 활용해서 모델을 개발하고 있는데, GPU를 사용하는 경우에 주로 많이 사용하는 플랫폼이 TensorFlow, ONNX, PyTorch입니다. 그래프코어 Poplar®라는 아주 간단한 소프트웨어 스택을 사용해 기존의 GPU 플랫폼에서 만든 모델을 최적화 할 수 있습니다. 사용하기 쉽습니다. 추가적인 개발이 필요 없으며 상당히 간단하게 사용할 수 있는 소프트웨어입니다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>