최신 RTX 최적화 모델로 LTX·플럭스 등 크리에이티브 AI 가속...오픈 모델부터 파인튜닝까지 로컬 환경에서 실행되는 AI 워크플로우
엔비디아가 ‘엔비디아 GTC 2026’에서 엔비디아 DGX 스파크(DGX Spark)와 엔비디아 RTX PC에서 최신 오픈 모델과 AI 에이전트를 로컬 환경에서 비용 부담 없이 안전하게 실행할 수 있다고 밝혔다.
그동안 컨슈머 컴퓨팅의 패러다임은 PC에서 스마트폰, 태블릿에 이르기까지 ‘개인용 디바이스’라는 개념을 중심으로 진화해 왔다. 그러나 생성형 AI, 특히 오픈클로(OpenClaw)의 등장은 ‘에이전트 컴퓨터’라는 완전히 새로운 카테고리를 탄생시켰다. 이 가운데 엔비디아 DGX 스파크 데스크톱 AI 슈퍼컴퓨터, 엔비디아 RTX PC를 비롯한 디바이스들은 비용 부담 없이 안전하게 개인용 에이전트를 구동할 수 있는 최적의 인프라로 자리매김하고 있다는 설명이다.

이번 엔비디아 GTC에서는 다음과 같은 에이전틱 AI 관련 발표들이 소개됐다.
- 로컬 에이전트를 위한 신규 오픈 모델 공개: 엔비디아 네모트론 3 나노 4B(Nemotron 3 Nano 4B)와 네모트론 3 슈퍼 120B(Nemotron 3 Super 120B)를 포함한 신규 모델이 새롭게 공개됐으며, 큐원 3.5(Qwen 3.5)와 미스트랄 스몰 4(Mistral Small 4)에 대한 최적화가 이뤄졌다.
- 엔비디아 네모클로(NemoClaw) 출시: 오픈클로를 위한 오픈 소스 스택인 네모클로는 보안성을 강화하고 로컬 모델을 지원함으로써 엔비디아 디바이스에서의 오픈클로 사용자 경험을 극대화한다.
- 언슬로스 스튜디오(Unsloth Studio)를 통한 파인튜닝(fine-tuning) 간소화: 에이전틱 워크플로우를 위한 오픈 모델의 정확도를 더욱 향상시킬 수 있도록 파인튜닝이 한층 쉬워졌다.
GTC 참가자들은 3월 19일(현지시간)까지 매일 오전 8시~오후 5시 GTC 파크(GTC Park)에서 열린 ‘엔비디아 빌드 어 클로(build-a-claw)’ 이벤트에 참여했다. 현장의 엔비디아 전문가들은 참가자들이 각자의 디바이스를 활용해 상시 구동되는 능동형 AI 어시스턴트를 맞춤형으로 구축·배포할 수 있도록 지원했다. 행사는 기술 숙련도와 관계없이 누구나 참여할 수 있었으며, 참가자들은 자신의 에이전트에 이름을 붙이고 성격을 정의하며 필요한 도구에 대한 접근 권한을 부여해, 평소 사용하는 메시징 앱을 통해 소통할 수 있는 개인용 어시스턴트를 직접 제작할 수 있었다.
신규 오픈 모델, 로컬 에이전트에 클라우드급 품질 제공
비약적으로 확장된 컨텍스트 윈도우(context window)를 갖춘 차세대 로컬 모델은 PC에서 에이전트를 구동할 수 있는 인텔리전스를 제공한다. 풍부한 사용자 컨텍스트와 강력한 로컬 도구의 결합은 AI PC의 새로운 가능성을 열고 있다. 특히 128GB 통합 메모리를 기반으로 1,200억 개 이상의 파라미터를 갖춰 대규모 모델을 수용할 수 있는 DGX 스파크는 이러한 잠재력을 극대화한다고 업체 측은 밝혔다.
최근 출시된 네모트론 3 슈퍼는 1,200억 개의 파라미터와 120억 개의 활성 파라미터를 보유한 오픈 모델이다. 복잡한 에이전틱 AI 시스템 구동을 위해 설계됐으며, DGX 스파크나 엔비디아 RTX PRO 워크스테이션에서 에이전트를 가동하는 데 최적의 성능을 발휘한다. 특히 오픈클로 환경에서 거대 언어 모델(large language model, LLM) 성능을 측정하는 새로운 벤치마크 ‘핀치벤치(PinchBench)’에서 85.6%를 기록하며, 동급 대비 최고의 오픈 모델임을 입증했다는 설명이다.
미스트랄 스몰 4는 1,190억 개 파라미터 규모의 오픈 모델이다. 60억 개의 활성 파라미터와 전체 레이어 기준 80억 개 수준의 구성을 통해, 미스트랄 플래그십 모델의 역량을 하나로 집약했다. 이를 통해 사용자들은 일반적인 채팅과 코딩은 물론, 에이전틱 작업에 최적화된 고효율 모델을 활용할 수 있다.
보다 경량의 모델을 활용하려는 지포스(GeForce) RTX 사용자들을 위해, 엔비디아 네모트론 3 오픈 모델 제품군의 최신 모델인 네모트론 3 나노 4B가 출시됐다. 이 모델은 RTX AI PC에서 로컬 기반 에이전트와 어시스턴트를 구축하기 위한 최적의 기반을 제공한다. 특히 하드웨어 자원이 제한된 환경에서 구동되는 게임이나 애플리케이션 내 실행형·대화형 페르소나(persona) 구현에 적합하다. 네모트론 3 나노 4B는 엔비디아 GPU 기반 시스템 전반에서 활용 가능하며, 최소 수준의 VRAM만으로도 높은 수준의 지시 이행 능력과 우수한 도구 활용 성능을 발휘한다고 업체 측은 전했다.
이와 함께 엔비디아는 뛰어난 정확도를 입증한 알리바바(Alibaba) 큐원 3.5 27B·9B·4B 모델에 대한 최적화를 발표했다. 해당 모델들은 엔비디아 GPU에서 로컬 에이전트를 구동하는 데 적합하며, 비전과 다중 토큰 예측, 26만 2,000 토큰에 달하는 대규모 컨텍스트 윈도우를 기본으로 지원한다. 특히 270억 파라미터 규모의 밀집 모델은 RTX 5090 GPU와 결합될 때 더욱 뛰어난 성능을 발휘한다. 이 모델들은 올라마(Ollama), LM 스튜디오(LM Studio), 라마.cpp를 통해 활용할 수 있으며, 사용자는 RTX GPU와 DGX 스파크를 기반으로 가속화된 추론을 경험할 수 있다는 설명이다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>









