[인터뷰] ＂국내 AI 스피커 음성인식률 낮아, 기술 완성도 높여야＂

2019-02-08

취재 / 신윤오, 전동엽 기자

ETRI 자유발화형 음성인식 기술로 원어민 영어선생님 대체 목표

음성인식, 자연어처리 연구를 30년 이상 꾸준히 연구하고 있는 곳이 있다. 바로 국내 대표적인 연구기관인 전자통신연구원, ETRI이다. ETRI 음성지능그룹에서는 언어학습을 위한 자유발화형 음성대화처리 원천 기술을 보유하고 있다.

인터뷰 / ETRI 박전규 박사

특히 음성인식 및 대화처리 핵심 원천기술을 개발한 ETRI는 정보서비스 영역 및 외국어학습 영역에 적용하는 연구를 지속적으로 수행중이다. 핵심 목표는 원어민을 대체해서 영어 말하기 회화를 연습할 수 있는 기술을 개발하는 것이다. 역시 그 중심에는 인공지능 기술이 있다. 예를 들어, 환경보호에 대한 대화를 한다고 하면 이에 대한 지식이 있어야하는데 인공지능이 빅데이터를 통해 학습한다. 하지만 인공지능이 스스로 학습하는 단계가 아니기에 연구자들이 계속 인공지능에 지식을 입력하고 있다.

핵심기술은 음성인식기술, 대화처리기술과 외국어 학습기술이다. 제일 중요한 부분은 역시 STT(음성59을 텍스트로 전환)와 대화처리 기술이다. 콩글리쉬로 말해도 인공지능이 그대로 받아 적어야 하고, 그 콩클리쉬를 이해해서 어떤 부분이 문법적으로 틀렸는지 사용자에게 알려줄 수 있다.

ETRI 박전규 책임(지능정보연구본부 음성지능연구그룹)은 1991년 KIST에 들어갈 당시부터 음성인식과 자연어 처리를 같이 연구한 국내 대표적인 음성인식 전문가 중의 한명이다. 박 책임이 처음 음성인식을 연구할 때는 겨우 단어를 인식하는 수준이었지만 이제는 말하는대로 줄줄 받아 적은 수준까지 이르렀다.

음성인식이 인공지능 기술의 핵심으로 떠오른 지금, 그를 만나 음성인식 기술의 현재와 미래에 대해 물었다.

"음성인식 기술의 글로벌 경쟁력은 오픈소스 소사이어티
또는 커뮤니티라고 해도 과언이 아니다.
이에 글로벌 기술 수준이 지속적으로 평준화되고 있는데
그 다음 남은 문제는 인재와 데이터이다."

Q_1월에 열린 CES 전시회에도 인공지능 분야에 대한 관심이 컸습니다. 아마존이나 구글의 더욱 강화한 음성인식 기술에 대한 관심이 많았는데요. 이렇게 인공지능 기반 음성 인터페이스 기술이 날로 중요해지는 이유부터 말씀해 주시는 것으로 이야기를 시작하겠습니다.

A _현재 인공지능 기술의 근간이 되는 딥러닝 및 심층신경망 기술이 가장 효과적임이 입증된 분야가 음성인식과 영상인식입니다. 딥러닝 기술의 핵심적인 알고리즘은 이미 많은 부분이 2000년대 이전에 개발되어 있었는데, 하드웨어나 알고리즘에 문제가 생겨 이른바 ‘추운 시기’를 겪었습니다. 그러나 2000년대 중반이후 범용 GPU 기술이 비약적으로 발전하고 연구자들이 지속적으로 노력하면서 그간 신경망 알고리즘에서 문제시되었던 몇 가지 난제들이 해소되었습니다.

그 결과 음성인식과 영상인식에 매우 효과적인 심층 구조의 신경망이 개발되었습니다. 이런 부분들이 실제 응용되면서 각광을 받기 시작한 것입니다. 특히 심층신경망 기반의 딥러닝에 필요한 빅데이터가 결정적이었습니다. 빅데이터가 활용되면서 음성인식의 현실적인 문제가 풀리게 되었고 상용화도 가능해졌습니다.

Q_음성인식 기술이 중요한 만큼, 국내외 기업의 음성 데이터 수집과 음성 인식 관련 기술 확보에 열을 올리고 있습니다. 국내외 음성 인식 기술이 어느 정도 수준이라고 보십니까.

A _음성인식 기술의 글로벌 경쟁력은 현재 인공지능 기술 발전의 원동력인 오픈 소스 소사이어티 또는 커뮤티니라고 해도 과언이 아닙니다. 이로 인해 글로벌 기술 수준이 지속적으로 평준화되고 있는데, 그 다음 남은 문제는 인재와 데이터입니다. 인재와 데이터를 위해서는 막대한 자본이 필요한데 이를 가장 잘 활용하는 것이 역시 GAFA(google, apple, facebook, amazon)라고 보면 될 것 같습니다.

결국 국내 음성인식 기술 수준은 선진국과 거의 차이가 없다고 보는데, 전문 인력의 GAFA 집중은 국내 기술력을 키우는데 어려움을 주고 있습니다. 단적으로 구글은 100개 이상의 언어를 지원하는데 반해 국내는 10여개 언어를 지원하여 음성인식 및 자동통역을 구현하고 있다는 사실입니다. 기술적으로 한국어에 대해서는 자체 기술을 보유하고 있는 삼성, SKT, ETRI 등의 기술이 구글에 비해 동등 이상의 기술을 보유하고 있으며 다국어에 대해서는 선진국에 비해 열세라고 할 수 있겠습니다.

Q_최근 몇 년 사이에 국내통신업체들의 AI 스피커붐이 일었습니다. 한 조사에 따르면, 2019년 국내 AI 스피커 보급 대수는 800만대에 이를 것으로 예상했는데, 2017년 100만대 수준이던 보급 대수는 지난해 300만대에 이어, 불과 1년 만에 160% 성장하는 셈입니다. 하지만 음성인식 수준에 대한 불만도 많이 제기되고 있는데, 이러한 현상의 원인과 기술에는 어떤 영향이 미칠지 말씀해 주신다면.

A _작년에 모 기술조사기관에서 AI 스피커 사용자 만족도를 조사한 적이 있는데 말씀하신 맥락과 유사한 것으로 나타납니다. AI 스피커 업체에서는 마케팅을 위해 음성인식 오류율이 5% 이내라고 말하고 있는데, 실제 체감하는 성능과는 차이가 많은 것으로 보고되고 있습니다.
일반적인 환경에서 음성인식률은 60~70% 정도 수준으로 파악하고 있습니다. 이정도면 사실상 말귀를 잘 못 알아 듣는다는 이야기입니다.

특히 음성인식의 기술특성상 STT(음성-문자 변환 기술), 대화처리(문맥을 이해하고 대화를 진행하는 기술)의 양쪽이 모두 완전해야 하는데 잡음이나 원거리에서의 STT 정확도가 저하되고, 특정 전문 영역에 대한 구축 지식이 없거나 난해하기 때문에 대화처리나 응답도 불완전합니다. 결국 양쪽 기술의 완성도를 절대적으로 높여야 오류율을 줄일 수 있습니다.

Q_기술 이야기를 좀 해보겠습니다. 현재 비정형 자연어 음성인식 정확도가 떨어지고, 자유대화처리 정확도도 떨어지는 한계가 있는데, ETRI의 자유발화형 음성대화처리 기술은 이러한 점을 어떻게 보완 또는 강화했습니까.

A _ETRI는 전문 R&D 국책연구기관으로서 국내 기술 수준 고양과 개발된 기술의 산업적 기여를 목표로 합니다.
선진국과 마찬가지로 핵심 알고리즘의 개발을 통해 국내 기술 수준을 높이고, 빅데이터의 활용성을 극대화하기 위한 효율적인 인공지능 알고리즘을 개발합니다. 특히 선진 딥러닝 툴킷과 동등 이상의 기능 및 성능이 자체적으로 내재화된 딥러닝 알고리즘 및 소프트웨어를 개발하고 국내 민간 및 공공부문의 다양한 수요를 파악하고 이에 부합하는 기술 개발에 중점을 기울이고 있습니다.

Q_그렇다면, 자유발화형 언어학습 기술은 어디에 활용할 수 있는지 사례를 말씀해 주세요.

A _현재 일반적인 영역으로는 잘 알려진 AI비서 및 정보서비스 기반의 인공지능 스피커, 지도서비스와 AI비서 기능 등을 포함하는 차량용 인포테인먼트, 콜센터/고객센터 등 음성분석 기술을 위주로 활발하게 사업화가 이루어지고 있습니다. 현재 성능 개선에 따라 제한적이기는 하지만 민간 및 공공 부문의 회의록, 강의록, 속기록 등에 음성인식 기술이 적용되는 단계에 이르렀습니다.

음성분석 시장은 사람들이 아직은 잘 모르지만 가성비가 가장 좋은 분야입니다. 스피치 애널래틱스 시장은 콜센터용 고객과 상담원 사이에 발생하는 대화를 문자화해서 이슈분석도 하고 마케팅에도 쓰일 수 있기 때문에 시장이 굉장히 큽니다.

언어학습 기술의 경우 장기적으로는 원어민을 대체하여 외국어 말하기 학습을 수행하는 용도로 활용하는 것이 궁극의 목표로서 현재는 제한된 주제에 대해서 잘 짜여진 학습 콘텐츠를 기반으로 말하기 학습을 수행하는 소프트웨어가 상용화 단계에 있습니다.

2016년에 울릉군청, 울릉교육지청, 교육부와 MOU를 맺고 울릉군 소재 6개 학교에 시범서비스를 실시했습니다. 울릉군에 경우 당연히 원어민 선생이 태부족입니다. 학교당 1명, 혹은 울릉군 전체 초등학교에 한 명 정도 배정됩니다. 상황이 이렇다 보니 아무도 오려고 하지 않습니다. 이런 상황에 있는 곳에 저희가 개발한 기술을 도입해 확산시키는 것이 꿈입니다.

Q_이러한 기술을 ETRI는 기업에 어떤 식으로 이전합니까. 다시 말해 단순히 소프트웨어만 이전하고 끝나는 게 아니라 다른 필요한 지원도 있어야 할 것 같은데요.

A _정부출연기관의 기술이전 방식은 몇 가지가 있습니다. 기술이전료를 기반으로 계약하는 기술이전 방식, 기술가치 평가 등을 통해 회사의 지분에 투자하는 기술출자 방식 등이 있습니다.

기술이전을 수행한 다음에는 사업화를 위해 다양한 수준의 현장지원, 사업화지원, 기술교육 등을 지원하게 됩니다. 기술이전 과정상 기업에서 개발하기 어려운 항목에 대해서는 애로기술, 수탁개발 등을 설정해서 꼭 필요한 기술을 추가로 개발하는 사례도 있습니다.

"음성인식의 궁극은 사람과 모든 영역에 대해서
자연스레 의사소통하고 회의록을 작성해 주고,
언어장벽이 없는 세계를 구축하는 것이 될 것으로
앞으로도 해야할 일이 산적해 있다."

Q_음성인식 기술은 인공지능(AI) 기술과 사물인터넷(IoT) 기술의 확산과 맞물려 다양한 분야로 확대될 것입니다. 최근의 추세에 비춰 볼 때, 음성인식 기술이 어느 분야에 빠르게 확산될 것이며, 특히 국내환경에서는 어떤 분야가 적합 할런지요.

A _당분간은 기존의 AI스피커, 인포테인먼트, 음성분석 등의 생태계를 기반으로 다양한 서비스가 확장되는 형태로 진화할 것으로 예상됩니다.

예를 들어 SKT에서는 AI 비서 서비스를 스피커에 국한하지 않고 T맵과 같은 지도 서비스, VOD 서비스, 자동 통역 서비스, 영어 학습 서비스 등에 적극적으로 사업모델을 발굴하고 확장할 것으로 예상됩니다.

음성인식의 궁극은 사람과 모든 영역에 대해서 자연스레 의사소통하고 회의록을 작성해 주고, 언어장벽이 없는 세계를 구축하는 것이 될 것으로 앞으로도 해야 할 일이 산적해 있습니다.

Q_끝으로, 음성인식 기술 개발에 가장 시급한 환경이 있다면 어떤 것인지요, 향후 연구팀의 계획도 함께 말씀해 주세요.

A _음성인식 정확도를 끌어올리는 것이 목표입니다. 현재는 인식률이 60% 중반대인데 앞으로 4~5년 내에는 90%까지 끌어올릴 것입니다.

저희가 핵심적으로 연구하는 분야는 스피커 다이어라이제이션(Speaker Diarization)입니다. 예를 들면 동시에 3명이 이야기 하는 상황에서 기계가 각각의 발성을 구분해 따로 딕테이션하고 감정을 파악해 어떤 부분이 중요한지 요약까지 해주는 기술입니다. 이를 차세대 기술로 보고 있습니다. 이 기술이 실현되면 많은 부분이 해결될 것입니다. 동시에 여러 사람이 이야기하는 상황에서 누가 말하는지 구분해내는 기술과 구분된 기술로 사람별로 정확하게 텍스트로 받아 적어 주는 것이 중요한 부분입니다. 오버랩되는 부분도 현재 문제입니다. 오버랩은 말이 겹치거나 말하는 중간에 치고 들어오는 것인데, 현재의 기술로는 이런 상황에서 음성인식하기가 어렵습니다.

음성인식 기술 발전을 위해 역시 가장 필요한 부분은 사람입니다. 이는 정부, 산업계, 학계가 공동의 시너지를 내야 하는 부분이라서 중장기적으로 관심을 가지고 관련 인력을 육성하는 것이 절실합니다.

ETRI는 중장기적으로 산업에서 필요한 기술뿐만 아니라 선진국의 기술에 뒤지지 않는 국내 기술 경쟁력 확보가 주요한 미션이기 때문에 이 부분에 전력을 기울일 것입니다.

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)