AI의 성대모사 실력은?

네오사피엔스, 엔터테인먼트사와 사업기회 모색


[아이뉴스24 도민선 기자] 지난 5일 오후 서울 양재R&CD혁신허브에 입주한 네오사피엔스를 방문했을때, '사람을 즐겁게 하는 목소리를 만든다'는 표어가 보였다. 그리고 대체 어떤 사업을 하는 것이냐는 질문에 김태수 네오사피엔스 대표가 '목소리 지식재산권(IP)를 파는 플랫폼'이라고 설명하자 이해가 갔다.

네오사피엔스는 사람의 목소리를 추출해 임의의 텍스트에 합성하는 기술인 '아이스픽AI(Icepick.AI)'을 가지고 있다. 흔히 볼 수 있는 TTS(Text-to-Speech) 서비스가 로봇의 소리라면, 아이스픽AI는 사람 목소리의 억양을 반영한 성대모사에 가깝다.

김 대표는 '목소리 전문가'라고 할 수 있다. 2007년 LG전자에 입사해 다중마이크로 여러 사람의 목소리 가운데에서 특정인의 음원을 분리해내는 기술을 개발했다. 마침 인터뷰를 진행하던 장소에서 LG전자 우면R&D 캠퍼스가 보였는데, 건물 외벽에 부착한 간판 바로 밑 사무실에서 김 대표가 일했다고 한다.

이후 2010년부터는 퀄컴의 '스냅드래곤 보이스액티베이션' 개발에 참여했다. 덕분에 모바일 기기에 전혀 손을 대지 않아도 언제 어디서든 저전력으로 음성을 인식할 수 있다. 현재 여러 음성인식인터페이스를 탑재한 기기들이 호출어를 부른 뒤 명령을 전달하는데, 이를 가능케한 기술이다.

김 대표는 "지금은 거의 모든 스마트폰에 들어있는 기술이지만, 당시에만 해도 '버튼 눌러서 깨우면 되는데 굳이 이걸 왜 만들어야 하느냐'는 비판이 많았다"고 회상했다. 하지만 이 기술 덕분에 기존에 없던 의사소통이 가능해질 기회가 생겼다. 예를 들어 지하철을 타고 있을때 가족에게 주변의 소리를 들려준다면 문자 이상의 즉각적인 상황정보를 전달할 수 있다.

◆영어 몰라도 말하게 할 수 있어…내년 상반기 일어·중국어도 지원

현재 네오사피엔스는 30분~1시간 정도의 발화량만으로 음성합성에 사용할 수 있는 목소리를 추출할 수 있다. 물론 더 짧은 시간만으로도 가능하지만, 품질을 담보하기 위한 수준이 이 정도다. 하지만 200시간 정도의 발화량이 필요한 아마존에 비교해보면 상당히 적은 수준이라고 김 대표는 설명했다. 하루에 3시간씩 시간을 내 녹음해도 두 달이 넘게 걸리는 일이다.

이를 통해 네오사이엔스는 국내외 엔터테인먼트업계와 사업기회를 모색하고 있다. 올해 말이나 내년 초 쇼케이스를 진행할 계획이다. 김 대표는 "엔터테인먼트사 입장에선 저비용으로 콘텐츠 유통채널을 늘리게 돼 환영할 수밖에 없다"고 자신했다.

예를 들어 외국어를 할 줄 모르는 한류스타가 갑자기 외국어를 배워 해외진출을 하기는 어렵다. 하지만 이 기술을 이용한다면 외국팬들을 손쉽게 만나게 할 수 있다. 만약 홀로그램과 음성합성기술이 함께 사용된다면 연예인 한 사람을 그대로 복제해오는 셈이다.

네오사피엔스는 기술력을 알리기 위해 요즘 '핫한' 유명인을 이용했다. 바로 김정은 북한 국무위원장이다. 유튜브에 올라온 김 위원장의 친서 낭독 영상을 보면 한국어와 영어 실력을 엿볼 수 있다.

김 대표는 "전 세계 어떤 언어든 음성합성에 이용할 수 있다"고 강조했다. 하지만 장벽은 있다. 김 대표는 "김정은 위원장의 영어 목소리의 경우 한국어 발화를 바탕으로 만들어낸 것인데, 실제로 김 위원장이 저렇게 말하는지는 알 수 없다"며, "일반적으로 외국어를 쓰더라도 모국어의 억양이 남아 있는데, 청자가 기대하는 수준과 AI로 만든 게 다를 수 있어 시장조사가 필요하다"고 말했다.

현재 아이스픽AI는 한국어와 영어만을 지원한다. 내년 상반기에는 일본어와 중국어도 가능케할 예정이다. 네오사피엔스의 해외진출도 점쳐볼 수 있는 대목이다.

도민선기자 domingo@inews24.com

관련기사


포토뉴스



아이뉴스24 TV