구글 AI, 글로 설명하면 음악 만들어준다

뮤직LM 연구논문 공개
구체적이고 복잡한 설명 넣어도 그럴싸한 음악 생성
시간에 따라 다른 분위기 내는 시퀀스 구성도 가능
그림과 캡션만 보여줘도 음악 만들어
학습 데이터 저작권 이슈 남아 출시는 아직

등록 2023-01-28 오후 3:10:48

수정 2023-01-28 오후 3:10:48
가 가

[이데일리 임유경 기자] 사람처럼 자연스러운 대화가 가능한 오픈AI의 챗GPT 등장으로 IT업계가 긴장하고 있는 가운데, 구글이 이에 질세라 인상적인 음악생성 AI 기술을 공개했다. 뮤직LM(MusicLM)으로 불리는 구글의 음악생성 AI는 “우주에서 길을 잃은 듯한 느낌” “아케이드 게임 메인 사운드트랙” “저음 베이스와 강한 킥이 돋보이는 90년대 테크노” 같이 만들고 싶은 음악 스타일을 글로 설명하면 사람이 만든 것 같은 자연스러운 음악을 뚝딱 생성한다.

27일(현지시간) 테크크런치 등 IT전문 외신에 따르면 구글 리서치는 ‘뮤직LM: 텍스트에서 음악 생성’이라는 제목의 연구논문을 공개했다.

(사진=AP)

이번에 구글이 공개한 뮤직ML은 전문가가 아닌 일반인들도 구체적인 설명을 입력해, 원하는 분위기의 음악을 생성할 수 있다는 점에서 앞서 있다. 리퓨전(Riffusion), 댄스 디퓨전, 오픈AI 주크박스, 구글 오디오LM 등 이전에 나온 음악생성 AI들은 기술적 한계와 제한된 학습 데이터로 인해, 구성이 복잡하거나 고해상도 음원을 만들기 어려웠다.

구글에 따르면 뮤직LM은 28만 시간 분량의 음악 데이터 세트를 통해 “상당한 복잡성”을 요구하는 설명에도 짜임새 있는 음악을 만들어 내는 방법을 학습했다. 예컨대 “기억에 남는 색소폰 솔로와 솔로 가수가 있는 매혹적인 재즈 곡” “저음의 베이스와 강한 킥의 베를린 90년대 테크노” 같은 설명에도 인간 작곡가가 만든 것 같은 자연스러운 음악을 생성한다.

뮤직ML은 흥얼거리는 소리, 휘파람, 악기 연주나 노래 등 기존 멜로디를 기반으로 음악을 생성하는 것도 가능하다. 또, 정해진 시퀀스에 따라 음악을 생성하는 것도 가능하다. 예컨대 “명상 시간” “산책 시간” “달릴 시간” “최선을 다할 시간” 등 순서대로 쓰면 스토리 라인이 있는 음악이 만들어진다. 이런 기능은 영화 사운드트랙 제작에 사용할 수 있어 보인다. 뿐만 아니라 그림과 캡션을 조합해 지시할 수도 있고, 특정 장르의 특정 유형의 악기로 연주된 오디오 생성도 가능하다.

구글은 저작권 이슈 등의 문제가 남아 있어 아직 뮤직LM을 외부로 공개하지 않았다. 구글 연구원들은 뮤직ML 생성한 음악의 약 1%가 훈련에 쓴 곡에서 직접 복제된 것을 발견했다. 연구원들은 “음악 생성과 관련된 위험을 해결하기 위해 더 많은 작업이 필요하다”고 했다.