엔비디아, AI 기반 아바타 생성 지원하는 기술 오픈 소스로 공개

2025-09-25
신윤오 기자, yoshin@elec4.co.kr

‘오디오투페이스’ 애니메이션 모델, RTX 키트 SDK 최신 업데이트로 차세대 그래픽 개발 가속화

생성형 AI는 거대 언어 모델(LLM)과 음성 모델을 활용해 비디오 게임부터 고객 서비스에 이르기까지 자연스러운 대화를 지원하는 지능형 3D 아바타를 생성한다.

엔비디아가 게임, 3D 애플리케이션의 AI 기반 아바타 생성을 지원하는 오디오투페이스(Audio2Face) 기술을 오픈 소스로 공개한다고 밝혔다.

음성 오디오와 감정적 트리거로 얼굴 애니메이션과 립싱크가 생성된다.


캐릭터가 사람처럼 보이기 위해서는 인간다운 표정이 필수적이다. 엔비디아(NVIDIA) 오디오투페이스는 생성형 AI 기반 실시간 얼굴 애니메이션과 립싱크를 제공해 사실적인 디지털 캐릭터 제작을 가속화한다.

오디오투페이스는 AI를 활용해 오디오 입력을 바탕으로 사실적인 얼굴 애니메이션을 생성한다. 음성의 음소, 억양 등 음향적 특징을 분석해 애니메이션 데이터 스트림을 만들고, 이를 캐릭터의 얼굴 표정에 매핑한다. 해당 데이터는 오프라인 환경에서 사전 제작된 콘텐츠에 활용 가능하며, 실시간 스트리밍으로 AI 기반 캐릭터의 역동적인 상호작용에도 사용할 수 있다. 이를 통해 정밀한 립싱크와 감정 표현이 가능하다.

엔비디아는 오디오투페이스 모델과 소프트웨어 개발 키트(Software Development Kit, SDK)를 오픈 소스로 공개한다. 이를 통해 모든 게임, 3D 애플리케이션 개발자가 최첨단 애니메이션을 갖춘 고품질 캐릭터를 제작하고 배포할 수 있도록 지원한다. 또한 오디오투페이스 훈련 프레임워크도 오픈 소스로 공개돼 누구나 엔비디아의 기존 모델을 활용 사례에 맞게 미세 조정하고 맞춤화할 수 있다.

크리에이터를 위한 3D 캐릭터 제작 플랫폼을 제공하는 리얼루전은 자사 툴 모음에 오디오투페이스를 통합했다.

리얼루전의 혁신 부문 책임자인 엘비스 황(Elvis Huang)은 “오디오투페이스는 AI를 활용해 오디오로 감정이 담긴 다국어 얼굴 애니메이션을 생성한다. 리얼루전의 아이클론(iClone), 캐릭터 크리에이터(Character Creator), 아이클론 AI 어시스턴트(iClone AI Assistant)와 오디오투페이스의 매끄러운 통합은 물론, 얼굴 키(face-key) 편집, 페이스 퍼페티어링(face puppeteering), 애큐립(AccuLip)을 비롯한 고급 편집 도구 덕분에 고품질 캐릭터 애니메이션 제작이 그 어느 때보다 쉬워졌다”고 말했다.

서비오스의 게임 디렉터 겸 수석 엔지니어인 유진 엘킨(Eugene Elkin)은 “’이볼브드 에디션’에 오디오투페이스를 통합함으로써, 립싱크와 얼굴 캡처 파이프라인을 간소화하는 동시에 플레이어에게 더욱 몰입감 있고 사실적인 캐릭터 경험을 제공할 수 있었다”고 말했다.

‘체르노빌라이트(Chernobylite)’ 게임 시리즈의 개발사 더 팜 51(The Farm 51)은 최신작에 오디오투페이스를 도입했다.

더 팜 51의 크리에이티브 디렉터인 보이치에흐 파즈두르(Wojciech Pazdur)는 “엔비디아 오디오투페이스 기술을 ‘체르노빌라이트 2: 금지구역(Chernobylite 2: Exclusion Zone)’에 도입한 것은 우리에게 획기적인 전환점이었다. 우리는 오디오로 매우 정교한 얼굴 애니메이션을 직접 생성해 수많은 애니메이션 작업 시간을 절약했다. 기존 ‘체르노빌라이트’에서는 불가능했던 아이디어들이 실행 가능해졌고, 새로운 수준의 사실감과 몰입감 있는 캐릭터 연기가 그 어느 때보다 실제처럼 느껴진다”고 말했다.

<저작권자©스마트앤컴퍼니. 무단전재-재배포금지>


100자평 쓰기

관련 기사

엔비디아(NVIDIA) 관련 기사
오피니언
스타트업이 뜬다
기술 리포트가 뜬다