[인터뷰] 그래프코어 VP ＂IPU는 GPU와 CPU 대체 아냐...메모리 내장한 새로운 AI반도체＂

2020-03-09

윤범진 기자, esmaster@elec4.co.kr

Fabrice Moizan, GM & VP Sales US at Graphcore

Q. 지금까지 GPU가 AI 시장을 이끌어왔다는 점을 생각하면, GPU가 불가능한 작업이 무엇일지 상상하기 어렵다. 충분한 예를 들어 달라. 또한, 그래프 기반 아키텍처가 무슨 의미인지, 인메모리 프로세싱에 대해서도 설명해 달라.

A. 자연어처리 모델이나 영상처리 모델의 경우, 크기가 점점 더 방대해지고 있습니다. 최근 자연어처리와 관련해 GPT-2라는 대규모 번역 기반 언어 모델이 나왔는데. 이 모델은 15억 개의 파라미터를 가지고 있습니다. 현재 GPU 1천 개를 사용해 단지 모델 하나를 훈련할 수 있는 경우도 있습니다. 때문에 향후에는 모델을 마치 사람의 뇌처럼 학습할 필요가 있습니다. 이는 점차 데이터셋이 많아지고 대규모 데이터센터가 필요함을 의미합니다. 모델이 커지면서 훈련 시간도 점점 더 길어지고 있습니다. 어떤 경우는 모델 하나를 훈련하는 데도 한 달이 소요됩니다.

데이터 과학자들은 혁신을 원합니다. 훈련 및 추론 시간을 단축할 수만 있다면 많은 긍정적인 혜택을 누릴 수 있습니다. IPU는 훈련 및 추론 시간을 훨씬 빠르게 해줍니다. 그래프코어 IPU는 프로세서에 직접 메모리를 배치했습니다. 따라서 프로세서와 메모리 간의 대기시간 보틀넥(latency bottleneck)을 없앨 수 있습니다. IPU는 학습 및 추론 모델을 메모리에 적재한 후 바로 연산할 수 있기 때문에 지연을 제거하고 연산 속도를 획기적으로 향상시켰습니다. 반면, GPU는 프로세서 외부에 메모리가 존재하기 때문에 대기시간 보틀넥을 피할 수 없습니다.

금융업계에서 사용하는 AI 모델인 MCMC(Markov Chain Monte Carlo) 확률 모델의 훈련에 IPU를 적용해 기존 프로세서로 2시간 이상 걸린 작업을 4분 30초 만에 최적화할 수 있었습니다. 대기시간이 길어지면, 트레이더들이 금융시장에 빠르게 개입하지 못하거나 즉각 반응하지 못하게 됩니다.

그래프코어는 기존 CPU나 GPU와는 전혀 다른 아키텍처를 사용합니다. GPU는 3D 렌더링을 위해 설계됐으며 상당히 많은 양의 픽셀을 동시에 처리합니다. 하지만 머신 러닝은 상당히 방대한 병렬처리에 기반하고 있습니다. 그래프코어 IPU는 ‘스파서티(sparsity, 희소성) 개념에도 잘 부합합니다. 스파서티는 무작위로 메모리에 액세스하는 것을 의미합니다. 어떤 애플리케이션은 여기저기서 끌어온 작은 데이터를 조합해 AI 모델을 구동하므로 방대한 양의 데이터가 필요 없습니다.

그래프코어의 콜로서스(Colossus) IPU에는 1,200개 이상의 프로세서 코어가 내장됩니다. 각각의 프로세서에는 256KB SRAM이 탑재되어 있습니다. 별도의 외부 메모리(DRAM)가 필요 없습니다. 이것이 기존 프로세서와 큰 차이점입니다.

GPU는 외장 메모리로 고대역폭 메모리(High Bandwith Memory, HBM)를 채택합니다. 외부에 있는 데이터를 끌어와야 하기 때문에 대기시간 문제를 야기할 수 있습니다. 메모리 대역폭이나 처리능력(Throughput)은 장점이나, 그 결과로 인해 전력소비가 증가할 수 있습니다.

IPU 프로세서 코어마다 짝을 이루고 있는 SRAM을 다른 프로세서가 사용할 수도 있습니다. 우리는 벌크 동기식 병렬(Bulk Synchronous Parallel, BSP)이라는 개념을 활용합니다. BSP 모델을 사용해 모든 IPU 프로세서 코어 간 통신을 지원합니다. 이는 각각의 프로세서가 동시에 계산 작업을 수행할 수 있다는 의미입니다(Computation, 로컬 계산 단계). 어떤 경우에는 프로세서가 연산을 중단하고 다른 프로세서와 동기화 작업을 실행합니다(BSP Sync, 동기화 단계). 또 다른 단계로 메모리를 교환하는 작업을 실행합니다(Exchange, 교환 단계). 이것은 정적(Static) 기반이기도 하지만 동시에 결정론적인 기반을 가지고 있습니다.[‘시간 결정성(time-deterministic)’, 즉 동기화 후 모든 교환이 특정 시간에 실행된다. 또 ‘그래프’의 ‘정적 특성(Static nature)’, 다시 말해 IPU에 의해 처리된 그래프는 일정 시간을 보장하기 위해 정적이어야 한다.

"IPU는 GPU로 구동이 불가능한 모델을 구동할 수 있습니다. 예컨대 MCMC 모델에서 추론을 함에 있어서 일부는 GPU와 FPGA를 사용하고
일부는 IPU를 활용할 수 있습니다. IPU는 의료공학이나 신약 개발에도 활용할 수 있습니다."
파브리스 모이잔, 그래프코어 VP

Q. IPU가 CPU와 GPU를 모두 대체할 수 있다고 보나?

A. 그렇지 않습니다. CPU와 FPGA는 모두 훈련이 가능합니다. 또 GPU가 IPU보다 월등한 영역도 있습니다. 예를 들어, 아주 큰 이미지 관리에서는 GPU가 유리합니다. GPU는 상당히 큰 사이즈의 벡터(Vector, 디지털 데이터의 묶음) 구성으로 돼 있기 때문에 배치 사이즈가 큰 경우, 예를 들어 1,000개 정도의 배치 사이즈도 관리할 수 있습니다. GPU는 이미지 처리를 위해 설계됐기 때문에 영상의학 분야에서 유리하다고 할 수 있습니다. 반면, IPU는 배치(Batch) 사이즈가 작은 경우에 GPU보다 유리합니다. 또한 자연어 처리를 비롯해 데이터가 분산되어 있는 경우에도 IPU가 유리합니다.

Q. 가격 경쟁력은 충분한가?

A. 구체적인 프로세서 가격을 공개하기는 어렵지만, 가격 경쟁력은 뛰어나다고 할 수 있습니다. GPU와 비교해 가격적으로 문제없습니다. 예를 들어, 같은 가격에 엔비디아 PCI 카드에는 한 개의 GPU가 탑재되는 반면, 그래프코어 PCI 고속 카드 ‘C2’에는 두 개의 IPU(Colossus, 콜로서스)가 탑재됩니다.

Q. 국내 AI 시장 진출 전략은

A. 그래프코어는 이제 막 한국지사 설립과 함께 한국시장에 진출했습니다. 큰 기대를 걸고 있기는 하나 1년 내에 시장점유율을 크게 높이기는 어려울 것입니다. 앞으로 강민우 지사장과 산하 팀원들이 한국 내 대학이나 연구소와 긴밀한 관계를 구축해 나아갈 것입니다. 한국은 혁신에 기반을 둔 국가라고 생각합니다. 한국에는 SKT, 카카오, 삼성, 네이버 등 다수의 혁신 기업이 있습니다. 이들 혁신 기업이 시장을 선도하기 원한다면, IPU가 제공하는 혁신을 활용하면 도움이 될 것입니다.데이터센터가 보수적이라고 하는데, 지난해 MS는 클라우드 컴퓨팅 플랫폼 ‘애저(Azure)’에 그래프코어 IPU를 도입해 고객에게 좀 더 편리한 AI 개발환경을 제공한다고 발표했습니다. 우리는 2016년 설립된 신생기업이지만 MS가 그래프코어 IPU에 기반을 한 서비스를 출시한 것은, 고객들이 실용적이면서 혁신을 원한다는 사실을 알 수 있습니다.

"국내 기업 고객들의 변화하는 수요에 맞춰 공격적으로 시장을 개척하고
최적의 제품과 서비스 제공을 위해 조직 확대 및 지원에 적극 나설 것이다."
강민우 지사장, 그래프코어 코리아

Q. 자율주행 차량은 엣지 컴퓨팅의 대표적인 사례다. 엣지 컴퓨팅에서도 IPU를 적용할 수 있는 단계인가?

A. 자율주행 차량의 경우, 차내(In-vehicle) 솔루션을 주로 사용합니다. 이러한 솔루션에 IPU는 너무 크다는 인식이 지배적입니다. 그러나 IPU가 차내 영역에도 진입할 수 있다고 봅니다. 추론도 가능하고 아주 작은 규모로도 사용할 수 있습니다. 클라우드 상에서 모델 훈련에도 사용할 수 있습니다. 컴퓨터 비전이나 지각(Perception)에도 IPU를 사용하게 될 것입니다.

엣지 컴퓨팅의 경우, 1~20와트(W)의 저 전력을 사용합니다. 반면, 그래프코어 솔루션은 이보다 높은 75W의 전력을 소비합니다. 향후에는 엣지 컴퓨팅에서도 더 많은 연산을 요구하는 모델이 등장할 것입니다. 현재 저희가 가진 솔루션은 엣지 컴퓨팅 시장에는 맞지 않지만 2년 후에는 가능할 것입니다. 5G가 자동차 부문에서 상당한 지전이 이루어지고 있습니다. 때문에 2년 후 어떤 일이 일어날지 아무도 예측할 수 없습니다.

Q. Arm과 같이 (IPU) IP 코어 라이선스 모델을 구사할 계획도 있는가?

A. 없습니다. 그래프코어는 엔비디아처럼 프로세서 완제품을 판매하는 비즈니스 모델을 표방하고 있습니다. 첫 상용 제품은 대만 TSMC의 16나노미터 공정으로 제조됐습니다.

Q. 그래프코어가 추구하는 가치와 비전, 그리고 로드맵은?

A. ‘총소요비용(TCO)’과 ‘혁신’이라고 할 수 있습니다. 그래프코어는 칩 당 가격에 대해 언급하지 않습니다. 그다지 중요한 요소도 아닐뿐더러 데이터센터에서는 칩 당 가격이라는 하나의 요소보다는 TCO가 중요합니다. TCO 속에는 칩 가격도 포함되지만, 우리가 중요하게 보는 것은 동일한 IPU로 학습 및 추론 시간을 단축할 수 있다는 것입니다. 때문에 랙이나 서버 숫자도 줄이고 전력소비도 낮출 수 있습니다. 또 데이터 사이언티스트 입장에서는 결과를 훨씬 더 빨리 받아볼 수 있습니다. 이것이 그래프코어가 제공하는 가치입니다.

혁신은 대단히 중요합니다. IPU는 GPU로 구동이 불가능한 모델을 구동할 수 있습니다. 예컨대 MCMC 모델에서 추론을 함에 있어서 일부는 GPU와 FPGA를 사용하고 일부는 IPU를 활용할 수 있습니다. IPU는 의료공학이나 신약 개발에도 활용할 수 있습니다.

그래프코어 공동 창업자 두 분(나이젤 툰_Nigel Toon CEO, 사이먼 놀스_Simon Knowles CTO)은 기존 기술을 대체하기 위한 기술을 내놓겠다는 생각을 하지 않았습니다. 그래프코어는 기술을 개발할 때, 오늘날 존재하는 문제를 해결하기 위한 솔루션이 아니라, 향후 10년 동안 발생할 수 있는 문제를 해결할 수 있는 기술을 개발하자는 차원에서 접근했습니다. 향후 10년 동안 어떤 문제가 발생할지 알 수 없습니다.

그래프코어는 애초부터 GPU를 대체하자는 차원에서 회사를 설립한 것이 아닙니다. 기존에 없던 새로운 기술과 혁신적인 방식을 통해서 문제를 해결하고자 했습니다. 전 세계의 영향력 있는 업계 전문가들을 만나 머신 러닝과 딥 러닝 관련해서 어떤 문제가 있는지를 이해했고, 상당히 오랫동안 건재할 수 있는 아키텍처를 구축하기 원했습니다. 그 결과물로 ‘온칩 메모리’라는 아이디가 나온 것입니다. 온칩 메모리를 통해서 처리능력을 향상시키고 대기시간을 최적화할 수 있었습니다.

2년 전, 시장이 역동적으로 진화하면서 ‘스케일아웃(Scale-out)’이라는 단어를 많이 사용하게 됐는데, 현재 8개 IPU나 16개 IPU만을 연결하는 것이 아니라 수천, 수만 개의 IPU를 연결할 수 있을 정도로 변화가 빠르게 일어나고 있습니다.

당연히 로드맵이 있습니다. 많은 투자자들이 그래프코어 로드맵을 보고 투자를 결정한 것입니다. 6개월 내에 그래프코어 관련 소식을 많이 접하게 될 것입니다.

Q. 2021년에 AI 칩 업체 중 절반이 사라질 것이라는 전망도 있다.

A. AI를 ‘빅오션(Big ocean)’이라고들 합니다. 응용분야가 많다는 의미겠죠. 스마트폰 자체도 하나의 AI라고 할 수 있습니다. 엣지 단에서 사용하는 AI도 있습니다. 반면, 고성능 AI도 있습니다. 예를 들어, 추론 분야에서는 50개 정도의 회사가 활동하고 있습니다. 현재 고성능 AI 분야에서, 학습 및 추론을 모두 할 수 있는 회사는 엔비디아, 구글, 그래프코어뿐입니다. 그만큼 학습과 추론을 모두 할 수 있는 AI 칩을 개발하기가 어렵습니다. 소프트웨어 또한 상당히 복잡합니다. 인텔은 AI 칩 너바나(Nervana) 개발을 중단하고 (하바나 랩스의 AI 가속기) 하바나(Goya와 Gaudi)에 주력할 것이라고 발표했습니다. 반면, 우리는 혁신을 실현할 수 있는 영역에 집중하고 있습니다.

많은 AI 칩 회사들이 이미 사라졌습니다. 때문에 어떤 회사가 AI 칩을 구매할 수 있는 여력이 있는가를 봐야 합니다. 그래프코어는 하이퍼스케일 데이터센터나 클라우드 서비스 회사가 빅바이어라고 생각합니다. 빅바이어로는 AWS(아마존웹서비스), MS 애저, 알리바바 등을 꼽을 수 있습니다. 운 좋게도 그래프코어는 MS 애저로부터 투자를 받은 상황입니다.

IPU 구조가 어떻길래
Graphcore Colossus IPU(GC2)의 특징

IPU는 대규모 병렬(Parallel) 및 동형(Homogeneous) 멀티코어 아키텍처를 사용한다. 가장 기본적인 하드웨어 처리장치는 IPU 코어로, 동시에 6개의 스레드를 실행할 수 있는 동시 멀티스레딩(Simultaneous Multi-Threading, SMT) 프로세서다. GPU의 SIMD/SIMT 아키텍처보다 멀티스레드 CPU에 더 가깝다고 할 수 있다.

2018년 출시된 첫 상용 제품인 ‘콜로서스(Colossus) GC2 IPU’는 1,216개의 독립적인 IPU 코어와 각 IPU 코어마다 프로세서 내 메모리(256KB SRAM) 타일을 탑재했다. 따라서 IPU 칩은 약 300MB의 온칩 메모리를 포함하고 있다. IPU의 칩 당 메모리 대역폭은 45TB/s이다. IPU 코어 당 최대 100 GFLOPS(1 GFLOP은 초 당 약 10억 부동소수점 연산에 해당) 이상으로 300MB 메모리와 짝을 이뤄 최대 1만 개의 프로그램을 병렬로 실행할 수 있다.

IPU 타일을 연결하는 상호연결 메커니즘을 IPU-Exchange라고 하는데, 8TB/s의 총 대역폭으로 차단 없이 모든 통신 패턴을 실현할 수 있다. IPU-Link는 320GB/s의 칩 간 대역폭으로 상호연결을 가능하게 하며, PCIe는 64GB/s의 양방향 호스트 통신 대역폭을 제공한다.

IPU는 벌크 동기식 병렬(Bulk Synchronous Parallel, BSP)이라는 병렬 컴퓨팅을 위한 소프트웨어 브리징 모델을 사용한다.
그래프코어의 소프트웨어 스택 Poplar®는 구글에서 만든 텐서플로(TensorFlow) 프레임워크와 호환 가능한 AI 모델 생태계 ONNX와 통합됐다. 페이스북 파이토치(PyTorch)와 호환도 올초까지 완료한다는 계획이다.

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)