내 음성도 복제가 될까..'음성합성 시대'가 온다

네이버, 개발자 컨퍼런스에서 음성합성 기술 근황 공개
과제 산적하지만 '가상의 인물'이 예능을 하는 시대도

등록 2018-10-12 오후 2:27:58

수정 2018-10-12 오후 2:27:58
가 가

[이데일리 김유성 기자] 짧은 말소리만 듣고 그 사람의 음성을 합성한다면?

공상과학 영화나 소설에서 봤음직한 일이 실제로 일어나고 있다. 글을 컴퓨터가 읽어주는 것을 넘어 나만의 목소리가 가진 특징을 추출하고 이를 재생하는 방식이다. 전세계적으로는 구글이 선두주자인 가운데 네이버와 국내외 음성 인식·합성 스타트업들이 이 기술을 개발 중이다.

11~12일 서울 코엑스 그랜드볼룸에서 열린 네이버 개발자 컨퍼런스 ‘네이버 DEVIEW 2018’에서 이봉준 네이버 연구원은 네이버의 음성합성 기술 근황과 과제를 설명했다.

12일 네이버 개발자 컨퍼런스 ‘DEVIEW 2018’ 내 ‘누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)’ 세션에서 이봉준 연구원이 음성합성 기술 관련 최근 근황에 대해 설명 중이다.

음성합성, 다양한 서비스에 응용 가능

음성 합성, 다시 말해 텍스트를 사람 목소리로 바꿔주는 기술(Text to Speak)는 다양한 분야에 응용될 수 있다. 가상비서라고도 불리는 인공지능(AI) 스피커가 한 예다.

AI는 사람의 목소리를 듣고 텍스트로 바꾸고 이해한다. 이에 대한 응답을 텍스트로 만들어 다시 목소리를 합성해준다. 특히 화자 인식에 있어, 음성 인식과 파라미터로 불리는 특정인의 목소리 특징을 잡아내는 기술은 중요성이 크다.

‘파파고’ 같은 번역기에도 응용된다. 현재는 스마트폰에서 파파고가 구동되지만 머지 않아 귀에 꽂는 보청기 형태의 음성 번역기가 널리 쓰이게 된다. 외국인의 목소리를 인식하고 이해해서 사용자한테 들려주기 위해서는 음성합성이 필수다.

포털사이트에 올라온 뉴스, 어학 공부를 위한 사전에도 음성합성 기술은 유용하다. 텍스트를 자연스럽게 사람의 목소리로 바꿔 읽어주는 오디오북은 인터넷 라디오 시장의 새 강자로 떠오를 수도 있다. 텔런트 유인나의 목소리를 합성해 만든 오디오북이 한 예다.

자연스러운 ‘합성’, 여전히 고난이도

다만 실제 기술을 서비스로 상용화하는 데 있어 여러 걸림돌이 있다. 이 연구원은 “사람들마다 억양이 다르고 발음이 부정확한 경우도 많다”며 “기계가 인식해야할 정보가 굉장히 많다”고 말했다.

텍스트에서 목소리로 바꾼다고 해도 숙제는 산적하다. ‘묵음’처럼 텍스트에 존재하지 않은 발음 정보, 속도와 높낮이, 운율 등의 정보다. 이를 그냥 지나치면 굉장히 어색한 목소리가 된다.

데이터를 모으는 것도 넘어야할 거대한 산이다. 성우처럼 명료한 목소리에 정확한 발음을 잡음없이 수개월을 녹음해야 한다. 듣기 좋은 호감가는 목소리를 찾아내기도 쉽지 않다.

이런 이유로 네이버는 음성 인식을 위해 수십명에서 수백명의 음성 샘플을 수집하고 여기서 최종 1명을 선정해 음성 데이터를 모았다.

다시 돌아와, 특정인의 목소리를 짧은 시간 안에 복제할 수 있을까. 이 리더는 ‘(이 같은 방식으로는) 어렵다’고 단언했다. 각 개인이 일정한 톤으로 깨끗한 발성을 하는 경우가 드물다. 여러 잡음이 섞이면 기계가 학습하기 더 어렵다.

결국 생각해 놓은 방식은 음성마다 있는 특징을 추출하는 기술이다. 일종의 지문 혹은 DNA 같은 ‘파라미터’를 뽑아내는 것이다. 예컨대 유성음과 무성음에서 어떻게 발음되는지, 특정 텍스트에 어떻게 발음하는지를 파악하는 것이다.

여기에 사람 목소리로 표현된 문장을 통째(end to end)로 학습하는 기계학습은 음성합성에 있어 ‘축복’과 같다. 사람이 들여야할 수고와 노력이 그만큼 줄기 때문이다.

조만간 감정까지 실은 음성합성 상용화 예상

이런 파라미터 추출 방식은 국내 스타트업에서도 사용하고 있다. 기계학습의 기술 수준과 컴퓨팅 역량이 커지면서 고도화되고 있다.

음성합성 스타트업 ‘네오사피엔스’의 김태수 대표는 김정은과 도널드 트럼프의 영상속 목소리 특징만 추출해 음성을 합성했다. 김정은이 영어를, 트럼프가 한국어를 하는 이 영상은 미국에서도 화제가 됐다.

김 대표는 대화하는 정도의 사람 목소리 합성은 3~6개월 내 서비스로 상용화될 수 있을 것으로 예상했다. 그는 “최근들어서는 목소리에 감정 요소까지 담고 있다”며 “가상의 인물이 나와 예능 프로그램을 진행하고 사람들을 웃기고 울리고 하는 일도 머지 않아 이뤄질 것”이라고 예상했다.