미래의 AI 시스템을 위해서는 변화된 전원 솔루션 요구

  • 2018-02-06
  • 글 | Danny Clavette, Director, Systems Applications, 인피니언 테크놀로지스



지능적인 디지털 제어와 고성능 전원 스테이지를 결합함으로써 새로운 프로세서 아키텍처의 전력 밀도 요구를 충족한다.


몇 년 전만 하더라도 오늘날 우리가 목격하고 있는 인공지능(AI)은 공상 과학 소설에나 나올 법한 것으로 치부되었다. 하지만 오늘날 AI는 점점 현실이 되고 있으며, 한 발 더 나아가서 하나의 거대한 시장을 이루고 있다. 이러한 추세에 발맞추어서 딥 러닝의 병렬 프로세싱에 능한 새로운 차원의 프로세서들이 등장하고 있다.

이 기술을 앞으로 나아가게 하는 원동력은 알고리즘이다. 그러는 한편으로, 새로 등장하는 프로세서들은 기존 전원 시스템을 한계까지 몰아붙이고 있으며 전원을 관리 및 공급하기 위해서 갈수록 더 정교한 솔루션을 필요로 하고 있다. 이 글에서는 AI 시스템을 구동하기 위해서 변화된 전원이 요구된다는 것을 살펴보고, 딥 러닝에 필요로 하는 전력 수준을 제공하는 새로운 전원 솔루션들을 소개한다.

AI: 새로운 프로세서와 변화된 전원 요구

사람은 다년 간의 학습과 누적된 경험을 통해서 지식과 지혜를 얻는다. 컴퓨터는 정보를 보유할 수 있는 능력 때문에 똑똑한 것처럼 보이지만, 최근까지 일을 처리하거나 의사결정을 할 수 있도록 스스로 학습하는 능력은 갖지 못했다. 사람의 뇌가 20~30W의 전력을 소모하는 것에 비해서, 첨단 딥러닝 시스템은 AI가 되기 위한 학습에 작은 마을 하나 만큼의 전력을 소모한다. 그러므로 이러한 새로운 세대의 슈퍼컴퓨터를 구동하기 위해서는 이전과는 전혀 다른 수준의 전력이 요구된다.

AI 딥 러닝은 사람이 학습하는 것과 유사한 방식으로 작동한다. 바로 노출을 통해서 배우는 것이다. 예를 들어서 신경망으로 수천 개의 이미지들을 보여주고 이것을 처리해서 경험과 지식을 구축한다.

이러한 프로세서 집중적인 학습을 통해서 비슷한 것 같지만 분명히 다른 사물들을 마침내 구분할 수 있게 된다. 이러한 처리를 위해서는 시간이 중요하다. 그러므로 병렬 프로세서들을 사용해서 연산 시간을 선형적으로 향상시킬 수 있다(그림 1).



오늘날 AI의 전력 소모가 이처럼 높기 때문에 어떻게 하면 이러한 전력 요구량을 낮출 수 있을까 하는 노력에서 프로세서 자체와 컴퓨팅 아키텍처의 변화가 일어나고 있다. 기존의 전통적인 CPU(central processing unit)는 유연성이 매우 뛰어나고 다양한 유형의 프로그램들을 지원할 수 있도록 설계됐다. 하지만 AI 학습의 특징은 비교적 평범한 작업을 계속해서 반복한다는 것이다.

대부분의 AI 기능은 GPU(graphics processing unit)를 사용해서 실행할 수 있다. GPU는 복잡한 수학을 반복적으로 매우 효율적으로 실행할 수 있도록 설계되었다. GPU를 병렬로 사용함으로써 연산 성능을 추가적으로 높일 수 있다. 최신 GPU는 동급의 CPU와 동일한 전력을 사용하면서 데이터를 훨씬 더 빠르게 처리할 수 있다. NVIDIA는 초기 AI 시장에서 독보적인 위치를 차지했다. NVIDIA의 DX1 GPU?슈퍼컴퓨터는 각각이 21.2 테라플롭스를 처리할 수 있는 8개의 Tesla P100 GPU를 포함하며, 총 3,200W의 시스템 전력을 소모한다. DX1을 병렬로 사용해서 효과적인 신경망을 구축할 수 있다.

GPU에서 더 나아가서, TPU(tensor processing unit)라고 하는 것은 AI 학습 전용으로 개발된 ASIC이다. GPU를 기반으로 하면서 부동소수점 정밀도를 낮추고 래스터 변환과 텍스처 맵핑을 제거함으로써 연산 효율을 추가적으로 더 향상시킨다.

학습을 위해서 중요한 것이 센싱 능력이다. 센싱을 위한 저전력 센서들이 고속 무선 접속을 통해서 중앙의 AI 서버로 연결되어서 신경망의 눈, 귀, 손 역할을 한다. 2020년에 이르면 네트워크로 연결되는 센서 수가 500억 개 이상에 달할 것으로 전망된다.

AI를 위해서는 변화된 전원 시스템 요구

사람 뇌의 처리 능력에 근접하려면 AI 시스템이 초당 4만조 번(40 페타플롭스(PetaFLOPS)) 이상의 연산을 처리할 수 있어야 한다고 한다. 이 정도의 AI 컴퓨팅 성능에 이르는 서버 팜을 구축하려면 약 1,800개의 NVIDIA DX1이 필요할 것이며 대략 6MW의 전력을 소모할 것이다. 이와 비교해서 같은 일을 하기 위해서 사람의 뇌는 20W만을 소모한다.

MW수준의 전력을 공급하고 관리하는 것은 결코 쉬운 일이 아니다. 오늘날에는 에너지 비용이 상승함으로써 효율이 무엇보다도 중요하게 되었다. 또한 데이터 센터에서 매 1W를 더 소모할 때마다 더 많은 에어 컨디셔닝을 필요로 한다. 그러면 설비 비용과 가동 비용을 증가시킨다(그림 2).



데이터 센터는 수천 개의 프로세싱 유닛들로 이루어지므로 크기가 중요하다. 크기를 소형화하고자 함에 따라서 전력 밀도 요구는 빠르게 높아지고 있고 열을 소산시키는 데 사용할 수 있는 공간은 줄어들고 있다. 그러므로 새로운 세대의 AI 슈퍼컴퓨터 용으로 전원을 설계할 때는 열 관리가 무엇보다 중요한 과제이다.

컴퓨팅 시스템은 정적인 부하가 아니다. 학습을 할 때는 최대 전력으로 동작하나, 프로세서 활동에 따라서 전력 요구량이 변화한다. 최근의 전력 규격을 충족하기 위해서는 전력 범위 전반에 걸쳐서 효율을 높게 유지해야 한다. 그러기 위해서 오늘날의 다중위상 전원 솔루션은 사용되는 위상 수를 동적으로 제어할 수 있다.

디지털 대 아날로그 제어

확실한 것은, 갈수록 더 정교한 전원 솔루션이 요구된다는 것이다. 이에 따라서 인피니언은 기존의 아날로그 솔루션이 아니라 첨단 디지털 제어를 적용한 제품들을 내놓고 있다.

디지털 제어는 하이엔드 전원 솔루션을 설계할 때 전반적인 시스템 유연성을 높인다. 디지털 제어를 사용하면, 비싸고 시간도 많이 드는 실리콘 스핀을 할 필요 없이 컨트롤러를 맞춤화할 수 있으며 AI 용으로 다양한 전원 솔루션을 더 편하게 설계할 수 있다. 이러한 모든 기능을 포함하고 전력을 정밀하게 공급할 수 있으면서도 디지털 솔루션은 이제 아날로그 솔루션과 견주어서 가격 경쟁력까지 갖추게 되었다.

극히 통합적인 전원 솔루션 - AI 용으로 유연한 전원 플랫폼 제공

인피니언은 전원 제어 및 스위칭 솔루션들을 제공한다. 이들 제품은 극히 통합적인 솔루션으로 AI 애플리케이션 용으로 진화된 전원 솔루션을 구현하기 위해서 필요로 하는 모든 주요 실리콘 소자들을 포함한다.



인피니언은 디지털 컨트롤러, 통합적 전원 스테이지, 통합적 전원 관리 IC, PoL 컨버터, 드라이버 IC, 전원 블록, 디스크리트 MOSFET 같은 디스크리트 솔루션을 포함하는 포괄적인 제품 포트폴리오를 제공한다. 이들 제품은 인피니언의 축적된 기술력을 바탕으로 하며 OptiMOS, DrMOS, μDrMOS 같은 검증된 솔루션을 포함한다(그림 3).



다중레일 및 다중위상 디지털 컨트롤러


AI 서버 용으로 인피니언이 제공하는 제품 중에서 핵심적인 것이 다중레일/다중위상 디지털 컨트롤러이다. 이들 첨단 컨트롤러 제품은 Intel 및 AMD의 요건을 충족할 뿐만 아니라, 전압 설정 제어 및 시스템 텔레미트리 용으로 AVS(adaptive voltage scaling)를 적용한 PMBUS를 지원한다.

또한 이들 컨트롤러 제품은 다중 위상을 사용해서 1개, 2개, 3개의 완전 디지털 제어 전압 레일을 제공하도록 프로그램할 수 있다. 또한 필요에 따라서 IC와 드라이버 수를 늘리면 위상 수를 추가적으로 늘릴 수 있다.

위상을 추가하거나 차단하도록 프로그램할 수 있으므로 넓은 부하 범위에 걸쳐서 높은 효율을 달성할 수 있다. 부하 라인을 디지털적으로 프로그램할 수 있으므로 외부적 부하 라인 설정 소자들을 필요로 하지 않는다. 또한 PID 루프 보정과 디지털 온도 보정을 프로그램할 수 있다.

디지털 제어는 비선형적인 제어 알고리즘이 가능하므로 출력 커패시턴스는 줄이면서 뛰어난 트랜션트 응답을 달성할 수 있다. 또한 이들 대부분의 컨트롤러 제품이 각기 위상마다 사이클-대-사이클로 전류 한계를 프로그램할 수 있으므로 뛰어난 동적 전류 제한을 할 수 있다.
또한 이들 제품은 인피니언의 최적화된 GUI 툴을 사용해서 손쉽게 구성할 수 있다. 그리고 구성 설정을 컨트롤러의 온칩 NVRAM으로 저장할 수 있다.

이 정교한 컨트롤러 제품은 IUVP(input undervoltage protection), IOVP(input overvoltage protection), CFP(catastrophic fault protection), OUVP(output undervoltage protection), OOVP(output overvoltage protection)를 비롯한 주요 결함 검출 및 보호 기능을 포함한다. 또한 순간 값, 총 전류, 채널 별, 펄스-대-펄스로 OCP(과전류 보호)가 가능하다. 또한 다양하게 OTP(과열 보호) 임계값을 설정할 수 있으므로 최적의 과열 보호를 할 수 있다.

인피니언의 최신 다중위상 디지털 컨트롤러 제품인 IR35219는 최대 600A 부하 전류를 지원하는 업계의 유일한 10위상 컨트롤러이다. 듀얼 루프 컨트롤러로서 유연하게 위상을 구성할 수 있으며 소형화된 48핀 6 x 6mm 패키지로 제공된다. 인피니언의 디지털 컨트롤러로서 표준적 기능들 이외에도 IR35219는 위상 결함 검출 및 보호 기능들을 포함함으로써 어떤 위상에 결함이 발생하더라도 다중위상 VR이 계속해서 작동할 수 있다. 그러므로 중요도 높은 애플리케이션의 중복적 VR 디자인에 사용하기 적합하다.

OptiMOS 전원 스테이지 제품

AI 서버에 필요로 하는 전력 밀도를 제공하기 위해서 인피니언은 고효율 고전력 밀도 전원 스테이지 제품을 제공한다. 이들 전원 스테이지 제품은 단일 패키지로 정지 전류가 낮은 동기 벅 게이트 드라이버 IC, 하이사이드 및 로우사이드 MOSFET, 쇼트키 다이오드를 통합하고 있다. 그리고 PCB 레이아웃, 열 전달, 드라이버/MOSFET 제어 타이밍을 최적화하고 스위치 노드 링잉을 최소화하도록 패키지를 설계했다. 게이트 드라이버와 MOSFET을 결합해서 첨단 CPU, GPU, DDR 메모리 디자인에 필요로 하는 낮은 출력 전압을 더 높은 효율로 제공한다.

TDA21472 70A 전원 스테이지 제품은 내부적 MOSFET 전류 검출 알고리즘과 온도 보정 기능을 포함함으로써 우수한 컨트롤러 기반 인덕터 DCR 검출 기법과 비교해서 훨씬 더 우수한 전류 검출 정확도를 달성한다. 또한 보호 기능으로서 임계값을 설정할 수 있는 사이클-대-사이클 OCP(과전류 보호), VCC/VDRV UVLO 보호, 위상 결함 검출, IC 온도 보고, 과열 셧다운을 포함한다.

또한 딥 슬립 절전 모드를 포함하므로, 다중위상 시스템이 사용되지 않을 때 전력 소모를 크게 줄일 수 있다. 또한 최대 1.5MHz 스위칭 주파수로 동작할 수 있으므로 뛰어난 트랜션트 응답을 달성하므로 출력 인덕터뿐만 아니라 입력 및 출력 커패시터의 크기를 줄이면서도 업계에서 가장 우수한 효율을 달성한다.

또한 인피니언의 디지털 컨트롤러와 결합적으로 TDA21472 전원 스테이지는 PWM 3상태를 통한 Body-Braking 기술을 구현할 수 있으므로 출력 커패시터를 줄일 수 있다. 이 기술은 내부 MOSFET들을 재빨리 정지시킴으로써 트랜션트 성능을 향상시키거나 높은 임피던스 출력을 제공할 수 있다. 그러므로 이 전원 스테이지 제품은 서버 애플리케이션의 프로세서 코어 및 메모리 전원 공급용으로 적합하다(그림 4).



맺음말


AI는 미래의 삶에 커다란 변화를 가져올 것이다. AI의 반복적 알고리즘을 충족하기 위해서는 컴퓨팅 아키텍처와 프로세서 자체에 중대한 변화들이 요구된다. 그러기 위해서 이러한 새로운 AI 시스템을 구동하기 위한 전원 디자인을 설계할 때 새로운 과제들에 직면한다.

오늘날에는 효율이 갈수록 더 중요한 문제가 되고 있다. 인피니언의 OptiMOS MOSFET 프로세스는 새로운 디지털 제어 기술과 결합해서 업계에서 가장 우수한 효율을 달성하면서 유연하고 적응성 뛰어난 향상된 전원 스테이지를 가능하게 한다.

AI 전원 시장의 선도적 회사로서 인피니언은 IR35219 10위상 디지털 컨트롤러와 TDA21472 70A 전원 스테이지 같이 포괄적인 유형의 디지털 컨트롤러 및 OptiMOS 전원 스테이지 제품을 제공한다. 이들 제품을 사용해서 모든 주요 AI 하드웨어 플랫폼 및 까다로운 전류 요구를 충족할 수 있다.
 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)
 PDF 원문보기

  •  홈페이지 보기
  •  유투브 보기
  • 100자평 쓰기
  • 로그인

태그 검색
본문 검색
TOP