시그라프서 엔비디아 RTX 렌더링 기술로 구현, 엔비디아 맥신 AI 플랫폼 최신 업데이트 발표
엔비디아(NVIDIA)는 기업이 생성형 AI를 활용해 디지털 휴먼 아바타로 고객과 소통할 수 있는 새로운 방법을 제시했다.
엔비디아가 미국 덴버에서 열린 시그라프(SIGGRAPH) 2024에서 감정과 유머 등을 사용해 사람들과 소통할 수 있는 인터랙티브 디지털 휴먼(interactive digital human) ‘제임스(James)’를 선보였다.
제임스는 초현실적 맞춤형 인터랙티브 아바타 제작을 위한 레퍼런스 디자인인 엔비디아 ACE를 사용한 고객 서비스 워크플로우를 기반으로 한다. 사용자들은 곧
ai.nvidia.com에서 제임스와 실시간으로 대화할 수 있게 된다.
이번 컴퓨터 그래픽 콘퍼런스에서 엔비디아는 몰입형 텔레프레즌스(immersive telepresence) 경험을 위한 맥신 3D(Maxine 3D)와 오디오투페이스-2D(Audio2Face-2D)를 비롯한 엔비디아 맥신 AI 플랫폼(Maxine AI platform)의 최신 발전상을 함께 선보였다.
개발자는 맥신과 엔비디아 ACE 디지털 휴먼 기술을 사용해 디지털 인터페이스와 고객 인터랙션을 더욱 매력적이고 자연스럽게 만들 수 있다. ACE 기술은 음성, 번역, 시각, 지능, 생동감 있는 애니메이션과 동작, 사실적인 외관을 위한 AI 모델을 통해 디지털 휴먼 개발을 지원한다.
제임스, 디지털 브랜드 홍보대사
엔비디아 NIM 마이크로서비스를 기반으로 구축된 제임스는 맥락에 맞는 정확한 답변을 제공할 수 있는 가상 어시스턴트다.
제임스는 검색 증강 생성(retrieval-augmented generation, RAG)을 활용해 사용자에게 최신 엔비디아 기술에 대해 정확하게 알려줄 수 있다. 개발자는 ACE를 통해 자체 데이터를 사용해 고객에게 관련 정보를 전달하는 도메인 맞춤형 아바타를 생성할 수 있다. 제임스는 실제와 같은 고급 애니메이션을 위한 최신 엔비디아 RTX 렌더링 기술을 기반으로 구현됐다. 제임스의 자연스러운 목소리는 일레븐랩스(ElevenLabs)에서 제공한다. 개발자는 엔비디아 ACE를 통해 다양한 사용 사례에 맞는 아바타 제작 시 애니메이션, 음성, 언어를 맞춤화할 수 있다.
맥신은 디지털 휴먼의 오디오와 비디오 품질을 향상시키는 최첨단 AI 기능을 배포하는 플랫폼이다. 화상 회의 장치에서 사실적인 실시간 2D, 3D 아바타를 사용할 수 있도록 지원한다. 맥신 3D는 2D 비디오 초상화 입력을 3D 아바타로 변환한다. 이로써 화상 회의와 기타 양방향 커뮤니케이션 애플리케이션에 매우 사실적인 디지털 휴먼을 통합할 수 있다. 이 기술은 곧 얼리 액세스로 제공될 예정이다.
현재 얼리 액세스 중인 오디오투페이스-2D는 오디오 입력을 기반으로 정적인 초상화에 애니메이션을 적용해 단일 이미지에서 역동적으로 말하는 디지털 휴먼을 생성한다.
ai.nvidia.com에서 이 기술을 체험해 볼 수 있다.
<저작권자©스마트앤컴퍼니. 무단전재-재배포금지>