엔비디아 코스모스 3, 비전 추론·멀티모달 생성 통합해 로봇 행동 예측한다

2026-06-02 김미혜 기자, elecnews@elec4.co.kr

현실 세계 움직임 이해하고 돌발 상황 선제 추론 기능 제공… 자율주행·로봇용 합성 데이터 생성 지원

엔비디아가 아시아 최대 ICT 전시회 컴퓨텍스(COMPUTEX) 2026과 함께 열린 GTC 타이베이에서 새로운 오픈 월드 파운데이션 모델 ’엔비디아 코스모스 3(Cosmos 3)’를 공개했다.

코스모스 3는 텍스트, 이미지, 비디오, 음향 등 다양한 입력 정보를 기반으로 현실 세계의 움직임을 이해하고 미래 상황을 예측할 수 있도록 설계된 모델이다. 엔비디아는 이를 통해 로봇, 자율주행차, 스마트 공간 등 피지컬 AI 시스템의 학습과 개발을 지원한다는 계획이다.

피지컬 AI는 단순히 현재 장면을 인식하는 것을 넘어 다음에 발생할 상황을 예측해야 한다. 예를 들어 자율주행차는 돌발적으로 나타나는 보행자에 대응해야 하고, 물류 로봇은 처음 접하는 환경에서도 적절한 행동을 수행해야 한다. 그러나 실제 환경에서 이러한 데이터를 대규모로 수집하는 것은 비용과 시간이 많이 소요될 뿐 아니라 대규모 반복이 거의 불가능하다고 업체 측은 전했다.

코스모스 3는 단일 모델 안에서 비전 추론과 멀티모달 생성을 결합해 이러한 문제를 해결한다. 추론 블록이 장면을 해석하면 생성 블록이 이를 바탕으로 물리 법칙에 부합하는 결과물을 생성하는 방식이다.

특히 코스모스 3는 관절 각도, 그리퍼 위치, 이동 궤적 등 로봇 동작에 필요한 수치 기반 행동 데이터를 직접 생성할 수 있는 네이티브 액션 생성 기능을 지원한다. 개발자는 특정 하드웨어 구조와 작업 환경에 맞춰 모델을 파인튜닝해 활용할 수 있다.

엔비디아는 현재 코스모스 3를 기반으로 게임, 시뮬레이션, 실제 로봇 환경에서 활용 가능한 비디오 액션 모델을 개발하고 있다고 설명했다. 산업용 로봇 기업 애자일 로봇(Agile Robots)도 코스모스 3를 활용해 정책 개발을 위한 행동 조건부 로봇 데이터를 생성하고 있다.

코스모스 3는 스마트시티와 산업 현장에도 활용될 수 있다. 장면 내 이동 객체를 식별하고 경로를 예측하는 것은 물론, 미래 상태와 시나리오 변화를 생성해 비전 AI 시스템의 상황 이해와 경보 기능을 지원한다.

이를 통해 교통 시스템, 공장, 물류창고, 공공장소 등의 비디오 시스템은 이상 상황을 탐지하고 운영자에게 보다 풍부한 정보를 제공할 수 있다. 스마트시티 솔루션 링커 비전(Linker Vision)은 코스모스 3의 비전 언어 추론 기능을 활용해 실시간 카메라 데이터를 분석하고 도시 운영 최적화에 활용한다.

엔비디아는 코스모스 3가 충돌 사고나 드물게 발생하는 예외 상황과 같은 ‘롱테일(Long-tail)’ 시나리오 생성에도 강점을 갖고 있다고 설명했다. 실제로 확보하기 어려운 데이터를 합성 비디오 형태로 생성함으로써 로봇과 자율주행 시스템의 학습 범위를 확대할 수 있다는 것이다.

엔비디아는 코스모스 3가 다양한 오픈 비전 언어 모델 평가와 월드 생성 벤치마크에서 우수한 성능을 기록했으며, 향후 피지컬 AI 개발을 위한 핵심 기반 모델로 활용될 것으로 기대한다고 밝혔다.

100자평 쓰기