래블업 신정규 대표는 나주 글로벌에너지 포럼 'AI for Energy'세션에서 ‘전력 수요의 패러다임 시프트: AI 시대의 에너지 전략’을 주제로 기조연설에 나섰다.
신 대표는 인공지능 인프라 운영 플랫폼 ‘백엔드.AI’를 개발·운영하는 기업을 이끌고 있으며, 국내 대표적인 오픈소스 전문가로 꼽힌다. ‘텍스트큐브’ 프로젝트의 리드 개발자였으며, 구글 머신러닝·AI 분야 개발자 전문가(Google Developer Expert)로 선정됐고 글로벌 MLOps 워킹그룹에 참여하는 등 국내외에서 전문성을 인정받아왔다.
그는 AI 인프라 확산 과정에서 병목 현상이 어떻게 변화해왔는지를 짚으며, “2020년까지는 GPU 개수가 문제였고, 이후에는 GPU 간 네트워크 속도가 병목이 됐으며, 이어 데이터 공급 속도가 뒤처지면서 새로운 한계로 떠올랐다”고 설명했다.
그러나 최근 들어 가장 두드러진 병목은 전력 문제라고 신 대표는 강조했다. 특히 전력 밀도 상승 추세를 언급하며, "과거 데이터센터의 서버랙은 4kW 수준을 감당했지만 최신 AI용 GPU가 탑재된 서버랙은 50kW 이상, 향후 엔비디아의 차세대 제품은 600kW까지 요구할 것"이라며 “냉각과 전력 기술은 아직 이 수요를 따라가지 못하고 있다"고 말했다. 전력 인프라 설계 자체가 도전에 직면한 것이다.
또한 AI 워크로드 특유의 전력 변동성도 문제를 키우고 있다고 설명했다. 예를 들어 GPU는 동시에 데이터를 나눠 계산한 뒤 일정 주기마다 결과를 모아 다시 분배하는 과정을 반복한다. 이 통신 구간에서는 GPU 연산이 잠시 멈추면서 순간 전력 소모가 최대 1/20 수준까지 급격히 내려갔다가 다시 치솟는데, 이는 전력 시스템에 심각한 부담을 준다. 기업들은 불필요한 워크로드를 발생시키거나 초대형 ESS(에너지저장장치)를 배치해 충격을 완화하고 있지만 근본적 해결책은 아니다.
신 대표는 AI 시대의 핵심 도전 과제로 전력 문제를 꼽았다. 클라우드 인프라가 초대형(하이퍼스케일)으로 확장되면서 GPU의 전력 소비 특성과 급격히 늘어난 수요가 기존 전력 인프라로는 감당하기 어려운 수준에 이르렀다는 것이다.
그는 불확실한 미래의 전력 문제에 대비하기 위해 무엇보다 유연하고 탄력적인 인프라 기술 개발이 필요하다고 강조했다. 특히 수만 장의 GPU를 활용하는 대규모 AI 인프라를 구축하려면 먼저 정확한 데이터를 축적하고, 이를 기반으로 변화하는 워크로드에 대응할 다양한 선행 기술을 개발해야 안정적인 인프라를 마련할 수 있다고 덧붙였다.
<저작권자©스마트앤컴퍼니. 무단전재-재배포금지>