인터뷰 김익재 단장 / KIST 영상미디어연구단
‘3D 몽타주’ '3D 얼굴인식' 등 빅데이터와 딥러닝 활용 커져
CCTV 영상 분석, 1시간 짜리를 1분 만에 보는 기술도 개발해
[전자과학 전동엽 기자] 헐리웃 영화나 미국드라마에서는 화면이 가득한 관제센터에서 CCTV를 통해 범인을 추격하거나 흐린 영상이나 사진을 선명하게 변환하는 기술이 심심치 않게 나온다. 하지만 미디어 속에 등장하는 첨단 수사기술들은 실제와 다른 경우가 많다. 영화는 영화고, 드라마는 드라마라는 얘기다.
그러나 실망하기는 이르다. 이런 상상 속의 기술이 현실화되고 있기 때문이다. 바로 인공지능(AI)을 통해서 말이다. KIST 영상미디어연구단 김익재 단장이 하는 일은, 이러한 AI를 이용한 과학수사 기술을 제공하는 것이다. 연구단은 얼굴 모델링, 얼굴 영상처리 분야에서 연구하던 경험을 토대로 인공지능 기술이 적용된 3D몽타주, 영상압축 기술 등을 연구개발하고 있다.
한가지 예로, 연구단에서 개발한 ‘나이 변환 몽타주’기술은 매년 실종아동의 날 행사에 활용된다. 실종아동의 사진을 토대로 현재 나이대의 모습을 예측한다. 인공지능 과학수사 기술연구를 이끌고 있는 김 단장을 만나 AI 과학수사의 현재와 미래에 대해 물었다.
Q 3D 몽타주, 영상압축 기술 등 AI를 활용한 첨단 과학 수사는 굉장히 신기하면서도 생소합니다. AI가 그야말로 대세 기술인만큼 활용되는 영역도 많은데요, 영상미디어 연구단은 언제부터 과학수사 분야에 AI를 접목한 기술을 연구하셨습니까?
연구단은 8~9년 전부터 AI 과학수사 기술을 연구하기 시작했습니다. 그전에도 얼굴 모델링, 얼굴 영상처리 분야를 연구했고요. 3D 몽타주 기술은 이미 기존에 사용하고 있는 기술이었습니다. 그러나 너무 오래된 기술이라 고도화가 필요하다는 경찰청의 요청이 있었고, 국가 R&D로 고도화 사업을 진행했습니다. 3D몽타주 기술에는 얼굴 인식부터 몽타주 생성방법까지 여러 요구사항이 많았습니다. 그런 요구들을 충족할 수 있는 신기술을 개발하고 적용하면서 지금의 3D 몽타주 기술이 됐습니다.
연구개발하는 당시 경찰청에서 저희에게 피드백을 많이 줬습니다. 보통 R&D를 진행하면 정해진 연구 목표에 대한 내용에만 집중하는데, 실제로 사용하게 되는 형사들이 ‘이런 기능이 있으면 좋겠다’라는 애정어린 요구를 많이 줬습니다. 그런 요구덕분에 기술이 많이 업그레이드 될 수 있었습니다.
Q 3D 몽타주 기술은 어떤 기술입니까?
3D 몽타주 기술은 2D 몽타주를 3D몽타주로 변환하는 기술부터 측면 이미지를 통해 얼굴 전체를 재구성하는 기술 등을 포함하는 명칭입니다. 목격자가 용의자의 얼굴을 옆모습으로 목격했다면 정면의 몽타주를 보고 알아챌 수 없습니다. 그런데 기존 몽타주는 옆모습을 보여줄 수 없기 때문에 3D로 변환할 필요가 있었습니다. 3D로 변환하면 조명처리 등 2D에서 할 수 없는 여러 효과들을 쉽게 줄 수 있습니다.
3D에서 2D로 차원을 줄이는 작업은 가능하지만 차원을 올리는 것은 추가적인 정보가 필요합니다. 여기에 빅데이터가 필요합니다. 2차원 얼굴에서 3차원 얼굴의 형상이 어떻게 반영되는 지에 대한 정보를 데이터베이스를 통해 추론해내야 합니다.
사진과 사진으로 인식하는 것은 상당히 정확도가 높습니다. 정면 대 정면으로 인식할 경우 거의 99% 정도의 정확도를 보입니다. 그러나 지금 우리가 개발하는 기술은 측면 얼굴이 왔을 때 사람을 찾아내는 기술입니다. 구현하기 어려운 기술이라 아직까지 인식률이 그렇게 좋지는 않습니다. 그러나 CCTV나 범죄현장에서는 얼굴을 드러내놓고 찍히는 경우는 거의 없기 때문이 이런 기술들이 필요합니다.
Q 3D 몽타주로 만든 스케치와 실제 사진 간의 차이도 생길텐데요.
스케치를 통해 그린 그림을 실제 사진과 일치시키는 일도 어려운 일입니다. 이 부분에서도 인공지능이 필요합니다. 스케치를 그리고 실제 얼굴에다가 스케치를 맵핑해서 쌍을 만드는 방식으로 학습합니다. 그래서 사진과 몽타주에서 공통된 특징들을 뽑아내서 특징들을 비교해 가장 가까운 사람을 찾아냅니다.
몽타주를 보다 빠르고 정확하게 제작할 수 있도록 연구 중입니다. 목격자가 얼굴을 명확하게 기억해내지 못하는 경우가 종종 있는데, 이 경우 몽타주를 만드는데 시간이 굉장히 소요됩니다. 그런 경우 목격자가 얼굴형이나 눈만이라도 기억해내면 그 부분만을 만족하는 여러 얼굴을 만들어내 유사한 형태를 찾을 수 있는 기술을 개발했습니다. 후보군 중에 비슷한 형태 얼굴을 2~3개 정도 선택하면, 그 모델을 분모로 다시 새로운 제너레이션(세대) 모델을 여러 개 만들어 점차 목격한 용의자와 비슷한 몽타주를 만드는 기술입니다. 처음부터 기억하려면 기억이 안날지라도 유사한 형태를 보면 기억이 날 수 있기 때문에 이런 방법을 적용했습니다. 완벽히 기억하지 못하더라도 가장 닮은 얼굴을 선택해가면서 완성해가는 방법입니다. 이런 방법을 제네틱 알고리즘(Genetic Algorithm)이라고 합니다.
"우리는 CCTV 각도가 돌아가더라도 인식을 할 수 있게
해달라는 요구를 충족할 수 있도록 ‘3D 얼굴인식’ 기술을 개발했습니다.
(중략)어떤 상태로 촬영될지 모르기 때문에 모자를 쓰거나,
마스크를 쓴 상황까지 고려해 학습시켰습니다."
이 과정을 통해 얼굴을 만들었는데, 목격자들이 ‘저 얼굴보다는 무섭게 생겼어요’ 라고 표현하는 경우가 있습니다. 일반적으로 이런 식의 표현을 많이 사용합니다. 이런 목격자 진술들을 좀 더 정확하게 반영하기 위해 인상변형 기술도 구현했습니다. 약 900명의 얼굴이미지를 기반으로 인상에 대한 데이터를 제작했습니다. 7가지 인상 앳되다(baby-face), 공격적이다(aggressiveness), 야비하다(mean), 권위적이다(dominance), 매력적이다(attractiveness), 믿음직하다(trustworthiness), 지적이다(intelligent)의 정도를 스코어를 매겼습니다.
그 데이터를 학습해 얼굴을 234개의 조각으로 만들어 인상 점수에 따라 수정할 수 있도록 만들었습니다. 예를 들어 무서운 정도가 4점인 얼굴사진에서 무서운 정도를 6~7정도로 올려 수정한다면, 무서움 정도가 6,7인 인상에 대한 특징을 학습해서 수정하는 방식입니다. 목격자가 “이것보다 좀 더 무섭게 생겼던 것 같아요”라고 진술하면 버튼 한번으로 수정이 가능한 것입니다. 이런 기능 하나하나에 기계학습이 적용되었습니다.
Q CCTV에 찍힌 용의자의 일부 얼굴 모습만으로도 전체 얼굴을 만들 수 있나요?
3D 몽타주 기술은 2014년에 최종적으로 기술 연구가 종료됐고 2015년에 공식적으로 사용하기 시작했습니다. 지금도 전국 경찰청에서 사용하고 있습니다.
CCTV는 동선별로 전부 찍히지는 않더라도 일부 찍힐 수 있습니다. 그동안 CCTV로 촬영된 이미지는 옆모습이 찍혀있거나 흐렸습니다. 그리고 조명이 너무 어두워 식별하기 어려운 경우도 있는 등 여러 방해요소가 많아 얼굴인식이 잘 안됐습니다. 그래서 우리는 CCTV 각도가 돌아가더라도 인식을 할 수 있게 해달라는 요구를 충족할 수 있도록
‘3D 얼굴인식’ 기술을 개발했습니다. 한 사람의 얼굴이 어느 정도까지 변화할 수 있는지를 학습하기 위해 1인당 3만여 장의 사진을 촬영했습니다. 어떤 상태로 촬영될지 모르기 때문에 모자를 쓰거나, 마스크를 쓴 상황까지 고려해 학습시켰습니다.
대부분의 얼굴인식 테스트는 얼굴이 잘 나온 데이터들을 대상으로 이뤄지기 때문에 인식률이 높게 나옵니다. 그러나 실제 케이스에서 잘 안 되는 이유는 이런 부분에 관심이 없었기 때문입니다. 한사람이라도 얼굴의 다양한 변화를 인식하기 위해서는 더 깊은 차원의 딥러닝이 필요합니다.
Q 전 세계적으로도 AI를 수사에 활용하려는 움직임이 있습니까?
해외에서는 지금까지 말한 것 외에 범죄이력, 사건정보(날씨, 시간, 장소) 등을 조사해 어떤 범죄가 언제 일어날지 예측하는 기술을 사용하고 있습니다. 영화 ‘마이너리티리포트’에서 미리 범죄를 예측한 것처럼 범죄정보에 대한 빅데이터를 구축해 프로파일링에 활용하고 있는 것입니다. 이를 통해 범죄가 일어날 확률이 높은 날이나 장소에 순찰을 강화했더니 실제로 범죄율이 낮아졌습니다. 동일한 범인들이 보통 유사한 범죄를 저지르기 때문에 유사성이 어느 정도 있다고 볼 수 있습니다. 앞으로 범죄 예측 예방 분야에도 AI가 활발히 활용될 것입니다.
"실제 환경에서 데이터를 확보하려다보니 민간인들의 얼굴이
노출되는 경우가 발생합니다. 해외는 괜찮지만 우리나라의 경우
개인정보보호법에 의해 굉장히 엄격하게 규제하고 있습니다.
Q AI를 활용한다면 AI의 학습을 위한 데이터베이스가 상당히 중요할 것 같습니다. 데이터 수집과 학습은 어떻게 이뤄집니까?
데이터베이스는 굉장히 중요합니다. 얼굴인식에서만 보더라도 데이터를 최대한 많이 수집하려는 이유가 있습니다. 관련한 많은 최신 논문들이 나오고 있지만 이들은 기존의 데이터 셋을 대상으로 실험하기 때문에 인식률이 높은 것입니다. 실제 CCTV 환경에서 거리, 날씨 등에 따라 다르게 나타나는 이미지에서 실증 가능한 데이터베이스를 확보하는 게 중요합니다. 데이터수집에 있어서 어려운 점이 있는데, 실제 환경에서 데이터를 확보하려다보니 민간인들의 얼굴이 노출되는 경우가 발생합니다. 해외는 괜찮지만 우리나라의 경우 개인정보보호법에 의해 굉장히 엄격하게 규제하고 있습니다. 그래서 데이터베이스를 확보하는데 어려움이 있습니다. 연구자들이 화면을 보고 비슷하게 흉내내서 찍는데 그 데이터양이 많지가 않습니다.
Q 아직 기술적으로나 여러 부분에서 해결해야 할 부분도 있을 것 같습니다. 앞서 말한 기술 외에 어떤 기술을 개발하고 있는지 궁금합니다.
요즘은 나이에 따른 변화를 적용하는 기술과 CCTV의 영상을 바탕으로 하나의 3D 공간을 만들어 관제하는 기술을 개발 중입니다. 나이에 따른 변화를 적용하는 기술은, 등록된 사진이 오래된 사진인 경우 실제와 다른 경우가 많이 연구하게 되었습니다. 10~20년 정도 시간이 지났으면 얼굴형, 주름, 피부톤 등 변화가 많이 일어납니다. 이 경우에 인식성능이 떨어지게 되는데 이에 어떻게 대응할지 연구하고 있습니다.
특히 실종아동의 경우 10~20년 후의 모습을 만들어내서 찾고 있습니다. 어떤 사진이 들어와도 변화한 모습을 만들어낼 수 있도록 기술을 개발 중입니다. 사진이 들어오면 어리게, 나이 들어 보이게 자동으로 가능합니다. 처음에는 ‘3D 몽타주’의 부가적인 기능으로 개발했지만 실종아동센터 등에서 굉장히 많이 활용하고 있습니다. 여기서 더 해야 할 것은 유전적 정보를 추가해 변화를 더 정확하게 예상하는 것입니다. 살이 찌거나 하면 얼굴형이 많이 변하게 됩니다. 사진에서는 얻을 수 없는 유전정보 등을 추가해 보다 정확하게 나이든 얼굴을 추측하는 기술을 개발 중입니다.
Q CCTV의 영상을 바탕으로 하나의 3D 공간을 만들어 관제하는 기술은 무엇인지요.
CCTV관제를 보면 이 화면에서 나타났다가 저 화면에서 나타나는 등 추적이 어렵습니다. 그래서 각 CCTV의 영상을 바탕으로 하나의 3D 공간을 만들어 관제하는 기술을 개발 중입니다. 이렇게 하면 여러 비디오의 정보를 직관적으로 한 번에 볼 수 있습니다. 즉, 대상이 어디서부터 어떻게 이동했는지 한 번에 알 수 있습니다.
‘비디오 요약’ 기술은 해외솔루션을 많이 사용하는 부분인데 저희가 고도화를 진행 중입니다. 영상에서 사람이 지나간 뒤에 일정시간 뒤에 새가 날아간다고 가정하면 그 사이 시간에는 공간의 공백이 생깁니다. 이를 확인하기 위해서는 비디오를 한참 동안이나 봐야합니다. 수사할 때도 마찬가지로 범인이 지나갔는지를 확인하기 위해서는 CCTV를 처음부터 끝까지 주시하고 있어야 합니다. 이 기술은 영상의 빈 공간을 줄여 다른 시점의 일을 동시에 보여줍니다.
영상을 잘라 붙여 시간을 단축하되 영상이 겹치지 않게 처리합니다. 예를 들어 용의자가 파란차를 타고 갔다면 영상에 파란차만 표시할 수 있고 차량마다 지나간 시간이 나타나 시기도 정확히 파악 가능합니다. 혹은 나들목에서 빠졌다면 전체를 볼 필요 없기 때문에 나들목으로 빠지는 차량만 선택해서 볼 수 있습니다. 1시간을 1분 만에 볼 수 있는 것입니다. 훨씬 수사의 효율을 올릴 수 있습니다. 현재는 외산기술을 사용하고 있지만 저희도 개발하고 있습니다.
"예를 들어 용의자가 파란차를 타고 갔다면
영상에 파란차만 표시할 수 있고 차량마다 지나간 시간이
나타나 시기도 정확히 파악 가능합니다.
혹은 나들목에서 빠졌다면 전체를 볼 필요 없기 때문에
나들목으로 빠지는 차량만 선택해서 볼 수 있습니다."
Q 그 외에 또 어떤 기술에 관심이 많나요?
아직은 경찰청에서 적용하지 못하고 있는데 향후 적용하려는 기술이 재식별(Re-Identification)입니다. 한 사람이 CCTV에 찍힐 때 동선에 따라 여러 군데에 나올 수 있습니다. 그런데 이 사람이 동일 인물임을 식별해내는게 어렵습니다. 사각지대도 있기 때문에 몇 분 뒤에 다른 CCTV에 나올 수도 있습니다. 현재는 형사 여러 명이 각 CCTV 모니터 앞에서 어디에 나타났는지 동시에 보면서 추적하고 있습니다. 사람을 동원해서 영상을 분석하는 경우에는 2~3일이 걸리기도 합니다.
이렇게 되면 범인은 이미 도망갈 만큼 도망가버린 이후입니다. 그러나 이 기술은 컴퓨터가 CCTV의 정보를 수집해 동일인을 식별하고, CCTV에 표시해 훨씬 간편하게 CCTV를 통해 동선을 추적할 수 있습니다. 유괴와 같이 신속함을 요하는 경우에는 컴퓨터를 더 투입해 빠르게 식별할 수도 있습니다.
또한, 귀를 식별하는 기술을 준비 중입니다. 귀가 드러나는 경우가 흔하진 않지만, 모자 쓰고 마스크를 써서 가리는 경우 그나마 드러나는 부위가 귀입니다. 귀의 모양을 식별하는 기술을 통해 조금이라도 범인을 잡을 가능성을 높이기 위해 개발 중입니다.
Q 앞으로 과학 수사에서 AI의 역할은 어느 정도까지 확대될 수 있을 것이라고 보십니까?
AI의 역할은 굉장할 것이라고 예상합니다. AI가 수사에 적용되면 정확도를 개선할 수 있고, 가상현실을 통해 범죄수사기법의 첨단화를 이끌어낼 것입니다. 지금까지는 단일 기술들이 고도화 됐다면, 앞으로는 복합적인 연결형태의 인식능력이 발달할 것입니다.
얼굴 사진, CCTV 이미지 뿐만 아니라 동선, 범죄유형, 남겨진 흔적들을 통해 복합적으로 영상, 생물학적, 화학적 정보를 유기적으로 활용할 것입니다. 요소기술 하나하나가 발전해서 복합적인 기술이 나오는 것처럼 하나의 단서로 해결이 안 되던 사건도 여러 증거를 통해 해결할 수 있을 것이라 생각합니다. 또한, 범죄현장도 디지털로 보존할 수 있을 것입니다. 증거를 디지털화 해두면 시간이 흘러도 해결의 실마리가 나올 수 있을 것이라고 생각합니다.
Q 앞으로 과학수사 분야에 있어 연구단의 목표와 비전은 무엇입니까?
연구단의 목표는 신원확인을 아주 빠르고 정확하게 할 수 있는 인공지능 기술을 개발해서 실제 현장에서 일어나는 수많은 시행착오와 수고하고 계시는 분들의 노고를 최소화하는 것입니다. 또한 이런 수준까지도 수사를 통해 검거가 가능하다는 것을 보여주면 범죄 예방효과도 있을 것이라 생각합니다. 언젠가는 다 잡힌다는 인식을 심어준다면 예방효과는 충분하다고 생각합니다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>