컨슈머 디바이스의 사용자 경험을 향상시키려면 뛰어난 오디오 솔루션이 필요하다는 것이 인피니언의 오래된 신념이다. 인피니언(Infineon)은 혁신에 대한 확고한 의지를 가지고 능동 노이즈 캔슬링, 주변 소리듣기(transparent hearing), 스튜디오 녹음, 오디오 줌, 여타 관련 기술로 주목할 만한 진보를 이루어 왔다. MEMS 마이크로폰의 선도 회사로서 MEMS 마이크로폰의 오디오 품질을 향상시키기 위해서 자원을 집중함으로써, TWS 및 오버이어 헤드폰, 랩탑, 태블릿, 화상회의 시스템, 스마트폰, 스마트 스피커, 보청기 같은 다양한 컨슈머 디바이스와 자동차로까지 향상된 경험을 가능하게 했다.
오늘날 우리는 AI가 생활의 모든 면을 혁신하는 시대를 살고 있으며, ChatGPT 같은 툴이 직관적인 텍스트 및 음성 상호작용을 통해서 생산성을 재정의하고 있다. AI 기반 시스템이 꾸준히 진보함으로써 기존의 비즈니스 모델, 신념, 예측들의 변화가 필요한 상황이다.
부상하는 AI 에코시스템으로 음성의 역할은 무엇인가?
비즈니스 리더들로서 우리는 어떠한 사고의 재고가 필요할까?
생성형 AI의 등장은 고품질 오디오 입력의 중요성을 낮출 것인가?
아니면 AI 기반 서비스 및 개인 비서의 폭넓은 도입을 위해서는 고품질 오디오 입력이 중요해질까?
AI, 유용한 비서에서 좋은 친구로
사람들은 질문의 내용뿐만 아니라 그 질문이 이루어지는 형태에 따라 그들의 반응을 조정하는 것은 자연스러운 일이다. 사람의 목소리는 질문하는 사람의 연령, 성별, 사회적 및 문화적 배경, 감정 상태까지도 파악할 수 있는 다양한 단서를 제공한다. 또한 환경(공항, 사무실, 교통 수단, 달리기와 같은 신체 활동)를 인식하는 것은 질문자의 의도를 파악하고 그에 따라서 대답이나 대화를 이어가는 데에 도움이 된다.
AI의 능력이 빠르게 진보함에도 불구하고, AI 기반 비서는 사람이 하는 질문의 의도를 정확하게 예측하거나 특정한 메시지를 해석하는 능력이 떨어진다고 하는 인식이 여전히 있다. 인간과 기계의 상호작용을 개선하기 위해서는 AI가 하는 수사적 선택에 있어서 세 가지 중요한 요소를 고려해야 한다. 듣는 사람에 대한 지식, 듣는 사람의 감정적 상태, 환경적 맥락이다.
많은 경우에 수신된 오디오 신호만으로는 유용한 정보를 끌어내고 적절히 대답을 하기에 충분하다. 예를 들어서 당신이 한 번도 만나 본 적 없는 사람과 전화 통화나 오디오 회의를 하는 경우를 떠올려 보자. 좀더 중요하게는, 누군가가 어떤 사람을 직접 만나는 일이 전혀 없이 반복적인 대화를 통해 그 사람에 대한 인식이 어떻게 변화할지 고려해 보는 것이다.
최근의 조사에서는, AI의 언어적 응답 스타일이 조금만 변화되더라도 AI의 인지되는 사회적 능숙도와 개성에 있어서 눈에 띄는 변화를 가져오는 것으로 조사되었다. 적절한 수준의 음향 입력을 통해 미래의 AI 시스템은 실질적인 친구로서 역할을 할 수도 있을 것이다. 질문을 묻고 대답을 진심으로 들어주거나 아니면 단지 경청하면서 판단을 유보하는 것과 같이 인간 친구와 같은 행동을 보일 수 있을 것이다.
사람은 오디오 신호를 어떻게 경험하는가?
어떤 언어적 소통과 마찬가지로, 오디오 메시지는 언어와 단어를 사용해서 생각, 감정, 관념을 전달한다. 뿐만 아니라 어조, 어투, 음량, 배경 소음 같은 여타의 소통 요소들이 메시지의 전반적인 인지에 영향을 미친다.
과학적 관점에서 사람의 귀는 두 가지 요소에 기반해서 오디오 신호를 인지한다. 주파수와 음압 레벨(SPL)이다. SPL은 데시벨(dB
SPL)로 표기되며, 주변 기압에 대해서 진동하는 음압의 크기를 나타낸다. 100dB
SPL의 SPL은 잔디깎이나 헬리콥터에서 나는 아주 큰 소음에 해당된다. SPL에 있어서 가장 낮은 점(0dB)은 20μPa의 음압 진동에 해당되는 것으로서, 이것은 청력이 최고 상태인 젊고 건강한 개인의 1kHz에서의 청력 한계와 같다. 음성과 관련된 모든 인간의 소리는 100Hz부터 8kHz의 주파수 대역에 걸쳐 있다. 그림 1은 ISO 226:2023에 따른 사람의 청력 한계능력치를 보여준다.
그림 1. 청력 한계: ISO 226:2023에 의거해서, 사람이 반복적 시험으로 50%의 정확한 감지 반응을 보이는 사운드 레벨.
그림 1에서 보듯이, 사람의 귀는 500Hz~6kHz 대의 주파수에 특히 민감하다. 이 주파수 대에서 상대적 주파수 균형과 관련한 어떠한 문제는 음성과 악기로 부터 인지되는 품질에 중대하게 영향을 미칠 수 있다. 500Hz부터 4kHz 사이의 주파수가 사람의 말로 대부분의 정보를 담고 있으므로 음성 명료도(speech intelligibility)에 영향을 미친다. 좀더 구체적으로는, 2kHz 부근의 주파수가 특히 중요하다. 5kHz부터 10kHz까지의 주파수는 음악에 중요하다. 이러한 주파수는 소리에 “생동감”과 “밝음”을 더해준다.
하지만 이러한 주파수는 상대적으로 작은 음성 정보를 포함하며, 대다수의 치찰음(sibilance)만을 포함한다. 이것은 “ship”, “chip”, “zip” 같은 단어를 시작할 때 나는 쉬쉬하는 음이다. 6kHz~8kHz 부근에서 치찰음을 낮추는 것은 음성명료도에 부정적인 영향을 미칠 수 있다.
대부분의 사람들이 알고 있듯이, 인간의 청력 능력한계는 나이가 들면서 감소한다. 그림 2는 이것을 보여준다.
그림 2. 이 그래프는 모노럴 이어폰 청음 조건으로 신체적으로 정상적인 남성의 청력 한계가 다양한 연령대에 따라서 저하된다는 것을 보여준다. 여성에 대해서도 동일한 그래프가 존재하는데, 여성의 경우에는 연령대에 따른 청력 저하가 덜하다. (ISO7029:2017)
청력이 조금만 저하되더라도 개인의 삶에 중대하게 영향을 미칠 수 있다. 40세에서 50세 사이의 대부분 사람들이 청력 저하를 경험한다. 예를 들어서 청력이 조금이라도 감소된 사람은 소음이 심한 환경에서 집단의 대화를 따라가기가 어려울 수 있다. 경고 신호나 경보 같은 중요한 청각적 신호를 놓칠 수도 있다.
현재의 오디오 하드웨어는 미래 AI 세대를 위해서 충분한가?
지금까지는 인간이 오디오 신호를 어떻게 인지하는지 알아보았으므로, 이제는 현재 및 미래의 AI가 사람과 구분할 수 없는 수준으로 동작하기 위해서 필요한 오디오 입력 품질에 관한 원래의 질문으로 돌아가보자.
오늘날 시장에 출시된 대부분의 컨슈머 디바이스가 그렇듯이, 오디오 신호는 MEMS 마이크로폰을 사용하려 녹음된다. AI를 기반으로 한 개인 비서 용으로 MEMS 마이크로폰이 주된 오디오 캡처 기술이다.
MEMS 마이크로폰이 생성하는 오디오 녹음의 품질은 MEMS 마이크로폰의 동작 범위에 따라서 좌우된다. 다이내믹 레인지의 상한선은 음향 과부하점(AOP)에 의해 결정되며, 이는 높은 음압 수준(SPL)에서의 마이크로폰의 왜곡 성능으로 정의된다. 마이크로폰의 자체 잡음은 스팩트럼 하단의 다이내믹 레인지를 제한한다. 마이크로폰 자체 잡음의 일반적인 지표는 신호대 잡음비(SNR)이며, 이것은 마이크로폰의 자체 잡음과 캡처하고자 하는 신호의 비이다. 하지만 SNR 수치는 A-weighting 을 사용하여 인간이 오디오 신호를 인식하는 방식으로 하기 때문에 우리가 하는 논의의 목적상 다소 오해의 소지가 있을 수 있다.
녹음된 신호의 의도된 수신자가 AI라면 , 등가 소음도(ENL)라고 하는 마이크로폰 파라미터가 성능을 나타내기 위한 좀더 적절한 방법이다. 이는 녹음된 소리의 인간 인지 요소를 무시하기 때문이다. ENL은 외부 음원이 없는 상태에서 마이크로폰이 발생시키는 신호를 의미한다. ENL은 데시벨(dB
SPL)로 표기되며, 마이크로폰의 자체 잡음과 동일한 전압을 발생시키는 음압 레벨을 가리킨다.
주파수에 따른 마이크로폰의 ENL은 마이크로폰의 청력 한계와 거의 근접하게 일치한다고 볼 수 있다. 다만 이것은 매우 단순화한 가정임을 주의해야 하며, 오디오 체인에는 일반적으로 사운드 채널, 추가적인 방수, 오디오 프로세싱 체인 같은 그 밖의 다양한 요소들이 존재하기 때문이다.
그림 3은 사람의 청력 한계와 비교해서 2개 MEMS 마이크로폰의 ENL 곡선을 보여준다.
그림 3. 보통 남성의 청력 한계와 비교해서 중급형 및 고급형 MEMS 마이크로폰의 음향적 1/3 옥타브 자체 잡음(ENL)
빨간색 선은 방진 용으로 외부이물 방지(environmental barrier)을 내장한 65dB(A) SNR 마이크로폰의 ENL 곡선을 보여준다. 여기에 해당되는 MEMS 마이크로폰이 현재 여러 업체의 다양한 하이엔드 스마트폰에 사용되고 있다.
그 아래의 보라색 선은 인피니언의 최신 하이엔드 디지털 마이크로폰의 ENL 곡선이다. 이 마이크로폰은 혁신적인 외부이물 방지 필터를 적용해서 먼지와 습도로부터 보호한다. 이 마이크로폰은 현재의 첨단 기술을 나타내는 것으로서, 올해 하이엔드 태블릿에만 채택되었다. 올 연말 안으로는 하이엔드 스마트폰으로도 이 비슷한 성능의 마이크로폰이 채택될 것으로 전망된다. 마이크로폰의 자체 잡음을 5~10dB
SPL 낮춘다는 것은 특히 음압의 로그 스케일을 고려할때 대단한 성취임을 주목할 만하다.
인피니언이 고성능 MEMS 마이크로폰으로 자체 잡음을 낮추는 것에 있어서 상당한 진전을 이루기는 했어도, 여전히 인간의 귀에 비해 낮은 음압 레벨을 구별하는 마이크로폰의 능력에는 상당한 차이가 있다. 특히 2KHz의 대역은 사람 청취자를 위해서 높은 수준의 명료도를 보장하는데 중요하다. 젊은이의 청력과 Infineon의 최신 마이크로폰은 12dBSPL이상 차이가 난다. 현재 하이엔드 휴대전화에 사용되는 마이크로폰과 비교해서는 17dB
SPL로 더 크게 차이가 난다.
다시 말하자면, 이것은 단지 MEMS 마이크로폰의 자체 잡음만을 고려한 것이며 오디오 체인의 추가적인 잡음 요인들을 고려하지 않았기 때문에 전체적인 성능은 더 낮아질 수 있다.
MEMS 마이크로폰 기술의 현재 한계는 사람 음성 정보의 대부분을 담고 있는 주파수 대역(500Hz~4kHz)에서 가장 분명하다. 시장에서 가장 정교한 MEMS 마이크로폰이라 하더라도 연령이 60세인 사람과 비슷한 수준으로 사운드를 이해할 수 있을 뿐이다. 이용 가능한 데이터에 근거해 보면, 최신 MEMS 마이크로폰 기술을 사용한 AI 기반 가상 비서라 하더라도 시끄러운 환경이나 먼 거리에서 대화를 하는 경우 , 노인과 유사한 청력 장애를 겪을 것으로 합리적으로 예상할 수 있다.
맺음말 및 전망
AI의 빠른 진보는 멈추지 않고 계속될 것이며, SNR이 높은 MEMS 마이크로폰에 대한 요구는 갈수록 더 높아질 것이다. 최신 MEMS 마이크로폰이라 하더라도 아직은 인간의 귀와 같은 오디오 품질을 제공하지 못하지만, 인피니언이 자체 잡음을 낮추는 것에 있어서의 진보는 현재 및 미래의 AI에 이로움을 주게 될 것이다. 오디오 체인의 추가적인 개선은 환경 분류, 맥락 이해, 감정 인식, 화자 식별, 다중 화자 분할 같은 AI의 능력을 향상시키는데 핵심이 될 것이다. 더 우수한 오디오 입력을 활용함으로써 AI가 인간의 행동 양식과 비슷한 혹은 필적하는 방식으로 인간과 상호작용할 수 있게 될 것이다.
더 나아가서 향상된 인간-기계 상호작용은 새로운 AI 기반 활용 사례와 서비스를 가능하게 할 것이다. 예를 들어서 Microsoft Copilot의 미래 버전은 Teams 회의를 요약할 뿐만 아니라 대화의 분위기를 전반적으로 평가하는 것까지 할 수 있는 것을 상상해 보라. 미래의 AI는 인간의 음성과 오디오신호를 기반으로 논의된 action item의 중요성을 강조하거나 일의 우선순위를 매길수 있다. AI 기반의 코칭 기능을 추가함으로써 미래의 대화를 원하는 방향으로 이끌어가는 것에 관해서 사용자에게 유용한 조언을 할 수도 있을 것이다.
AI 기반의 1차 면접을 통해 새로운 직무 후보자를 선발하거나 혹은 온라인 쇼핑에 준하는 보안 수준으로 오디오만으로 화자를 식별할 수 있는 것을 상상해 보라.
이러한 모든 것들은, 미래의 AI가 사람의 능력에 필적하는 혹은 능가하는 청력을 사용해서 할 수 있는 것들의 몇몇 예에 불과한 것이다. 인피니언은 향상된 MEMS 마이크로폰 솔루션을 통해서 이러한 흥미로운 여정을 실현하도록 기여할 것이다.
<저작권자©스마트앤컴퍼니. 무단전재-재배포금지>