북미(北美) 정상회담을 앞두고 가상의 대담이 해외 인터넷 뉴스 커뮤니티에서 회자됐다. 도널드 트럼프 미국 대통령은 어눌한 한국어 억양으로 정상회담에 대한 기대를 밝혔고, 김정은 조선노동당 위원장은 다소 촌스러운 느낌의 영어로 답변했다.
영상을 본 방문자들은 ‘신기하다’라는 반응이다. 일부 미국 방문자들은 가상 김 위원장의 발음에 적개심을 보이기도 했다. 인공지능이 만든 ‘가짜 음성’이란 것을 알면서도 김 위원장의 실제 음성을 들은 것처럼 반응한 것이다.
|
김태수 네오사피엔스 대표는 20일 이데일리에 “지난해 11월 네오사피엔스를 설립했다”며 “연초부터 음성을 진짜 사람처럼 만들 수 있는 인공지능엔진을 만들어 활용하기 시작했다”고 말했다.
|
네오사피엔스의 서비스는 기존 TTS(텍스트를 음성으로 변환)에서 한 단계 더 나아갔다. 말하는 이의 음색과 특유의 말버릇이 담긴다.
김 대표는 “음성 데이터 속에 들어있는 정보를 뽑아서 다양하게 만들 수 있다”며 “일종의 성대 모사가 가능한 AI가 된다”고 말했다. AI가 트럼프 대통령의 음성을 듣고 학습해, 트럼프 대통령이 할 가상의 한국어 발음을 합성하는 식이다.
김 대표는 이런 서비스가 유튜브, 팟캐스트 시장에서 가능성 있다고 점쳤다. 화자의 음색과 감정이 그대로 실린 채 다른 나라 언어로 통역된다.
그는 “유튜브 등 비디오 시장이 급성장하고 있지만, 한국에서의 개인방송이나 팟캐스트는 (언어에 대한 장벽으로) 해외 진출이 쉽지 않다”며 “번역 서비스와의 연동 과제가 있지만, 우리는 그런 벽을 허무는 데 가능성이 있다”고 말했다.
다만 구글과 네이버 등 대형 인터넷 기업과의 경쟁은 네오사피엔스에 있어 부담이다. 네이버는 이미 배우 유인나 씨처럼 특정인의 낭독 목소리를 거의 완벽하게 합성하고 있다. 구글은 ‘초조’, ‘슬픔’ 등 인간의 감정을 가미한 음성합성 기술을 선보였다.
그는 “현재 없는 시장에 과감히 진출해 기술을 개발할 수 있다는 점도 스타트업의 장점”이라며 “추후 시장이 생기면 (시장 선점자로) 유리한 위치를 점할 것”이라고 자신했다.