엔비디아, 기업과 개발자가 빛의 속도로 AI 팩토리 관리 운영하도록 지원
  • 2025-03-21
  • 신윤오 기자, yoshin@elec4.co.kr

광속 AI 팩토리 운영 블랙웰 인프라 위한 새로운 소프트웨어 발표 

엔비디아가 미국 새너제이에서 열린 GTC에서 AI 데이터센터와 워크로드의 복잡한 관리를 자동화하는 유일한 통합 운영과 오케스트레이션 소프트웨어 플랫폼, 엔비디아 미션 컨트롤(NVIDIA Mission Control)을 발표했다. 이는 기업과 개발자가 빛의 속도로 AI 팩토리를 관리하고 운영할 수 있도록 지원한다.

산업 시대는 증기라는 동력으로 촉발됐으며, 디지털 시대는 소프트웨어를 통한 변혁을 가져왔다. 그리고 현재, AI 시대는 생성형 AI, 에이전틱 AI(agentic AI), AI 추론 개발로 특징지어지며, 이를 통해 모델은 더 많은 데이터를 처리, 학습, 추론해 복잡한 문제를 해결할 수 있다.



산업 시대의 공장이 원자재를 상품으로 전환하는 것처럼, 현대의 기업은 데이터를 확장 가능하고 정확하며 신뢰할 수 있는 인사이트로 신속하게 전환하기 위해 AI 팩토리가 필요하다.

이 새로운 인프라를 조율하는 것은 증기 동력 공장을 건설하는 것보다 훨씬 더 복잡하다. 최첨단 모델에는 슈퍼컴퓨팅 규모의 리소스가 필요하다. 다운타임이 발생하면 몇 주간 진행됐던 일이 지연되고 GPU 활용률이 감소할 위험이 있다.

엔비디아 이번 GTC에서 발표한 미션 컨트롤은 AI 팩토리 운영의 모든 측면을 개선한다. 배포 구성부터 인프라 검증, 개발자 워크로드 운영에 이르기까지 기업이 최첨단 모델을 더 빠르게 시작하고 실행할 수 있도록 지원한다.

이 소프트웨어는 엔비디아 블랙웰(Blackwell) 기반 시스템을 사전 훈련에서 사후 훈련으로, 그리고 이제 테스트 시간 확장으로 빠르고 효율적인 전환을 돕도록 설계됐다. 이를 통해 기업은 블랙웰 기반 엔비디아 DGX 시스템과 엔비디아 그레이스(Grace) 블랙웰 시스템에서 훈련과 추론 워크로드 사이를 쉽게 전환해, 변화하는 우선 순위에 맞게 클러스터 리소스를 동적으로 재할당할 수 있다.

또한 미션 컨트롤에는 개발, 훈련, 추론을 위한 운영과 작업 오케스트레이션을 간소화하는 엔비디아 런:ai(Run:ai) 기술이 포함돼 인프라 활용도를 최대 5배까지 높일 수 있다.

미션 컨트롤의 자율 복구 기능은 신속한 체크포인트와 자동화된 계층형 재시작 기능을 지원한다. 이는 수동 개입에 의존하는 기존 방법에 비해 최대 10배 더 빠른 작업 복구를 제공할 수 있으며, AI 훈련과 추론 효율성을 높여 AI 애플리케이션을 계속 운영할 수 있다.

수십 년간 축적된 엔비디아 슈퍼컴퓨팅 전문 지식을 기반으로 개발된 미션 컨트롤은 AI 인프라 관리에 소요되는 시간을 최소화해 기업이 모델을 간단하게 실행할 수 있도록 지원한다. 이는 엔비디아 블랙웰 기반 엔비디아 DGX 시스템과 엔비디아 그레이스 블랙웰 시스템 위에 지어진 AI 팩토리 인프라의 수명 주기를 자동화한다. 델 테크놀로지스(Dell Technologies), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE), 레노버(Lenovo), 슈퍼마이크로(Supermicro)와 같은 주요 파트너사의 시스템에서도 원활하게 작동하며 전 세계 다양한 산업에서 고급 AI 인프라에 보다 쉽게 접근할 수 있도록 한다.

 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


#소프트웨어   #스마트팩토리   #인공지능  
  •  홈페이지 보기

  • 100자평 쓰기
  • 로그인

세미나/교육/전시
TOP