"15초만 들려주면 목소리 복제"…오픈AI '보이스엔진' 공개

음성샘플 제공후 텍스트 치면 똑같은 목소리로 읽어줘
오픈AI "언어장애·번역·어린이 읽기 지원 등에 유용"
美대선 앞두고 악용 우려에 "배포는 신중히 접근할것"

등록 2024-04-02 오후 5:48:42

수정 2024-04-02 오후 5:48:42
가 가

[이데일리 방성훈 기자] 오픈AI가 영상편집 인공지능(AI)인 ‘소라’(SORA)에 이어 사람 목소리를 복제할 수 있는 AI를 공개했다. 보이스피싱을 비롯해 딥페이크와 더불어 더욱 정교한 범죄에 악·오용될 수 있다는 우려가 제기된다.

(사진=AFP)

1일(현지시간) CNN비즈니스 등에 따르면 오픈AI는 지난달 29일 자사 블로그를 통해 음성 복제 AI ‘보이스 엔진’ 초기 테스트 모델을 공개했다. 이 엔진은 ‘텍스트 음성 변환’ 및 챗GPT의 ‘읽어주기’ 기능을 기반으로 하며, 15초 동안 음성 샘플을 제공하면 AI는 같은 목소리로 사용자가 제공한 텍스트를 읽어준다. 다양한 언어로도 가능하다.

이미 시중에는 다양한 AI 기반 음성 서비스가 쓰이고 있지만, 챗GPT와 마찬가지로 오픈AI의 보이스 엔진은 획기적인 성능을 자랑할 것으로 예상된다고 CNN은 짚었다.

오픈AI는 번역, 언어학습, 어린이 읽기 지원, 언어장애시 목소리 대변 등 맞춤형 지원 방식으로 사용자에게 도움이 될 수 있다고 밝히고 있다. 하지만 허위 정보 생성을 촉진시키는 등 더 쉽게 범죄를 저지르는 데 쓰일 것이라는 회의적인 시각도 적지 않다. 은행 등 금융회사의 음성 보안 인증이 뚫리거나 보이스피싱 우려도 크다.

특히 올해는 미국에서 대통령 선거가 치러지기 때문에 조 바이든 미국 대통령이나 도널드 트럼프 전 대통령이 연설하는 영상을 딥페이크로 만들 경우 심각한 위험을 초래할 수 있다고 CNN은 우려했다. 실제 지난 1월 말 미 뉴햄프셔 프라이머리(예비경선)를 앞두고 유권자들에게 바이든 대통령의 목소리로 “투표를 하지 말라”는 전화가 걸려와 논란을 일으킨 바 있다.

이에 오픈AI 역시 보이스 엔진 배포에는 신중하게 접근하겠다는 입장을 내비쳤다. 회사는 “현재 교육 및 건강 기술 회사를 포함한 신뢰할 수 있는 소규모 파트너 그룹만이 보이스 엔진을 사용하고 있다”며 당장 출시할 계획은 없다고 강조했다.

이어 “테스트를 통해 보다 광범위한 사용을 허용할지 여부와 방법을 결정할 것”이라며 “회사는 명시적인 동의 없이 테스트 참여자들의 목소리를 재현하지 않고 있으며, 청취자들에게도 AI로 생성된 음성임을 분명히 밝히고 있다”고 덧붙였다.