KAIST 유회준 교수 연구팀, 생생한 3차원 실사 이미지 구현하는‘메타브레인’ 개발해
KAIST(총장 이광형)는 전기및전자공학부 유회준 교수 연구팀이 실사에 가까운 이미지를 렌더링할 수 있는 인공지능 기반 3D 렌더링을 모바일 기기에서 구현, 고속, 저전력 인공지능(AI: Artificial Intelligent) 반도체*인 메타브레인(MetaVRain)’을 세계 최초로 개발했다고 밝혔다.
▲ ISSCC (국제고체회로설계학회) 데모 시연 사진
어떤 배경으로 개발했나
기계 학습 기술의 한가지 종류인 심층신경망은 최근 음성 인식, 이미지 분석 등의 다양한 분야에 활용되고 있다. 최근에는 심층신경망 기술이 고성능 3D 렌더링에도 활용되어, 기존 기술인 레스터라이제이션 (rasterization), 레이 트레이싱 (ray-tracing) 과 견줄만한 성능을 보여주고 있다.
초창기 3D 렌더링 기술이었던 레드터라이제이션은 3D 물체를 폴리곤 메쉬 (polygon mesh)로 표현하고 이를 단순히 관찰자의 입장에 맞춰 정사영시키는 방식으로, 연산은 단순하지만 현실과는 동떨어진 이질적인 렌더링 결과를 보여준다. 이를 보완하기 위해, 광원, 혹은 주변 물체에서 반사된 간접적인 광선에 대한 영향도 함께 계산하는 레이 트레이싱이 개발되었지만, 모든 광선의 영향을 수식에 입각해 계산하는 연산은 병렬로 수행하기 어렵고 요구되는 연산량도 많다는 문제가 있었다.
▲메타브레인 인공지능 반도체 칩: 인공지능 기반 3D 렌더링에 최적화된 프로세서로, 사람 눈을 모방한 시각 인지 하드웨어 및 하이브리드 인공지능 가속기를 집적한 반도체 칩.
이러한 문제는 VR 혹은 AR과 같은 모바일 디바이스에서 메타버스를 구현할 때 큰 부담으로 작용하였고, 더불어 높은 퀄리티의 3D 물체를 디자인하기 위해서는 Blender 등의 디자인 소프트웨어를 잘 다루는 전문가가 필요해 일반 사용자가 자유롭게 3D 컨텐츠를 제작하고 수정하기가 어려웠다. 더불어, 실제 환경에 있는 물체 혹은 공간을 가상 세계 3D 모델로 매핑하기 위해서는 비싼 가격의 3D 스캐너가 필요해, 메타버스 사용자가 자신들이 현실에 가지고 있는 물체나 경험하고 있는 것을 다른 사람들에게 쉽게 공유해 주기는 어렵다.
최근에 개발된 심층신경망 기반 3D 렌더링 방식 (e.g. NeRF (Neural Radiance Fields)) 는 심층신경망 추론을 통해 RGB값을 추측하여 3D 렌더링을 가능케하는 방법이다. 심층 신경망 기반 3D 렌더링은 우선 복잡한 3D 스캐너 없이 카메라로 촬영한 4장에서 100장 정도의 이미지만으로 3D 모델을 만들 수 있다. 촬영한 이미지들을 심층신경망에게 학습하게 해, 인공지능에게 3D 모양을 추측하도록 하는 원리이다. 이 학습하는 과정에서, 신경망은 광원과 반사율, 물체의 텍스처 및 색상 등의 정보를 모두 기억할 수 있게 된다.
▲메타브레인 활용 데모: 3D 스타일 변환 시스템 사진. 선택한 3D 모델를 선택한 스타일에 맞춰 인공지능이 다시 그려주는 데모 시스템
이에 따라, 학습 이후 추론을 통해 렌더링을 수행하면, 레이 트레이싱으로 얻어낸 이미지와 같이 실사에 가까운 3D 렌더링을 구현할 수 있다. 더불어 Blender 와 같은 소프트웨어 없이, 네트워크를 구성하는 가중치를 수정하거나, 네트워크가 사용하는 잠재 코드 (latent code)를 수정하면 손쉽게 3D 모델을 수정할 수 있다는 장점도 가지고 있다.
마지막으로, 심층신경망 기반 3D 렌더링은 레이 트레이싱에 비해 매우 적은 메모리 사용량을 보인다. 기존 레이 트레이싱 방식은 3D 모델의 형태를 지정하는 폴리곤 메쉬와 색상 및 표면의 거칠기 등을 표현하는 텍스처 맵 (texture map) 여러 개를 사용하기 때문에 3D 모델 하나를 표현하는 데도 많은 메모리 사용량을 보인다.
하지만 심층신경망 기반 3D 렌더링은 폴리곤 메쉬와 텍스처 맵을 모두 필요로 하지 않고, 오직 심층 신경망의 추론을 활용하기 때문에, 1 MB 미만의 작은 메모리 용량만을 요구한다. 이는 메타버스 공간 안에서 사용자 간에 자유롭게 3D 컨텐츠를 업로드, 공유할 수 있는 기회를 제공할 수 있다. 정리하면, 심층신경망 기반 3D 렌더링은 일반 사용자도 쉽게 3D 컨텐츠를 창조, 재구성 할 수 있어, 가상 공간의 자유도를 높이고, 3D 컨텐츠 공유를 위해 필요한 통신 대역폭도 크게 낮출 수 있다.
어떻게 연구했나
유 교수팀은 사람의 시각적 인식 과정을 모방한 최첨단 렌더링 기술과 저전력 고효율 인공지능 가속 엔진을 함께 제안하고, 이를 최적화 할 수 있는 반도체 칩과 응용시스템을 모두 개발하였다. 이번에 선보인 응용 시스템에서는 일반 사용자가 원하는 스타일에 맞춰 인공지능을 재학습하여 3D 모델의 스타일을 바꾸는 예제를 보여주어, 인공지능 기반 스마트 3D 렌더링 시스템의 활용성이 높음을 증명하였다.
고속, 저전력 인공지능 기반 3D 렌더링을 수행할 수 있는 모바일 인공지능 전용 반도체, 메타브레인은 다음과 같이 4가지 핵심 기술이 도입됐다.
1. 사람 눈의 시각 인식 과정을 모방한 3D 렌더링 기술 및 하드웨어
(VPC: Visual Perception Core)
시각적 인식 과정인 1) 공간 집중 (Spatial Attention) 와 2) 시간적 친숙도 (Temporal Familiarity), 3) 하위 집중 (Top-down Attention) 세 단계를 하드웨어로 구현하여, 인공지능 기반 3D 렌더링에 필요한 연산량을 획기적으로 줄이고, 외부 메모리 접근량을 최소화.
2. 하이브리드 인공지능 가속기
(HNE: Hybrid Neural Engine)
심층신경망의 데이터 희소성을 미리 파악하고, 이를 통해, 장단점이 다른 두 가지 인공지능 가속기를 함께 활용하여 효율적으로 가속하는 하드웨어 개발.
▲메타브레인 데모 화면 설명.
3. 모듈로 기반 사인파 함수 생성기
(Modulo-based Sinusoidal function Generator)
인공지능 기반 렌더링에 반드시 필요한 사인파를 만들기 위해, 모듈로 연산을 통해 사인파 함수를 근사할 수 있는 방법을 제안하고, 테일러 근사 혹은 룩업 테이블 (Look-up Table), CORDIC 등의 방식보다 작고, 효율적인 사인파 함수 생성 하드웨어 개발.
4. 인공지능 학습 기반 3D 모델 스타일 전환 시스템 개발
(Deep Neural Network Training based 3D Style Transfer System)
3D 모델을 학습한 인공지능을 사용자가 원하는 스타일에 맞춰 재학습 함으로써 색이나 질감을 바꿔주는 시스템 개발.
앞으로 어떻게 쓰나
메타브레인은 저전력, 실시간 3D 렌더링을 성공적으로 구현하여, 다른 기존 GPU 기반 가속 대비, 911배 높은 속도와 26400배 높은 에너지 효율을 달성하였다. 메타브레인 은 총 3가지 전력 사용 모드를 지원하여, 고속 모드에서는 최대 118 FPS 의 렌더링 속도를 달성하였다. 저전력 모드에서는 30 FPS 이상의 렌더링 속도를 유지하면서 전력소모는 133 mW 만 소모할 숭 있다.
이러한 메타브레인 시스템은 VR/AR 헤드셋 및 모바일 기기에서도 레이 트레이싱에 버금가는 높은 성능의 인공지능 기반 3D 렌더링을 구현할 수 있게 도와준다. 이는 다음과 같은 장점을 가져, 메타버스의 실현을 앞당 길 수 있다.
1) 먼저 카메라로 몇 장의 사진을 찍어서 학습하면 되기 때문에, 값비싼 3D 스캐닝 장비를 없앨 수 있어 현실 세계의 물체를 쉽게 가상세계로 가져올 수 있을 뿐만 아니라,
2) 요구되는 메모리 요구량이 레이 트레이싱 대비 180배 이상 줄어, 내가 만든 3D 콘텐츠를 다양한 사람들과 쉽게 공유할 수 있다는 장점이 있다.
3) 마지막으로, 학습된 인공지능을 재학습 함으로써, 전문 그래픽 인력의 도움 없이도, 3D 콘텐츠를 수정, 가공할 수 있다.
데모 동영상 유튜브 캡쳐화면 바로가기: https://www.youtube.com/watch?v=m-aqnZhALv0
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>