banner
뉴스 센터
우리는 품질을 희생하지 않고 탁월한 가격을 제공합니다.

Meta AudioCraft: 텍스트 프롬프트 기반 AI 음악 생성기

Aug 18, 2023

토드 스팽글러

뉴욕 디지털 편집자

Meta는 거대 기술 기업이 주장하는 "텍스트에서 고품질의 사실적인 오디오 및 음악"을 생성하는 새로운 AI 도구 세트인 AudioCraft를 출시했습니다. 예를 들어 "전자 자메이카 레게 DJ 세트"라는 텍스트 문자열을 기반으로 음악 시퀀스를 생성합니다. .”

Meta는 AudioCraft에 대한 블로그 게시물에서 “전문 음악가가 악기에서 단 한 음도 연주하지 않고도 새로운 작곡을 탐색할 수 있다고 상상해 보십시오.”라고 말합니다. "또는 중소기업 소유자가 Instagram의 최신 동영상 광고에 사운드트랙을 쉽게 추가할 수도 있습니다."

AudioCraft는 MusicGen(음악용), AudioGen(사운드 효과용) 및 EnCodec(생성 AI 디코더)의 세 가지 모델로 구성됩니다. MusicGen은 텍스트 설명 및 메타데이터와 함께 약 400,000개의 녹음에 대해 교육을 받았습니다. 이는 Meta가 소유하거나 이 목적을 위해 특별히 라이선스를 받은 음악에 해당하는 20,000시간에 달하는 음악입니다. "음악 트랙은 환경 소리보다 더 복잡하며, 새로운 음악 작품을 만들 때 장기적인 구조에서 일관된 샘플을 생성하는 것이 특히 중요합니다."라고 회사는 말합니다.

"더 많은 제어 기능을 통해 MusicGen이 처음 등장했을 때 신디사이저처럼 새로운 유형의 악기로 변모할 수 있다고 생각합니다."라고 회사는 블로그 게시물에서 말했습니다.

Meta는 MusicGen에서 생성된 음악이 어떤 느낌인지 클립을 공유했습니다. 레게 리프 외에도 "타악기가 있는 사막의 영화 장면", "드럼 비트가 있는 80년대 일렉트로닉", "재즈 악기, 미디엄 템포, 활기 넘치는 피아노", "멜로우 힙합, 비닐 스크래칭, 딥" 등의 예가 있습니다. 베이스":

한편 Meta는 AudioGen이 "공중 음향 효과"에 대해 교육을 받았으며 개 짖는 소리, 자동차 경적 소리, 나무 바닥의 발자국 소리와 같은 환경 소리와 음향 효과를 생성할 수 있다고 말했습니다. 이 회사는 또한 EnCodec 디코더의 개선된 버전을 출시했는데, 이는 "아티팩트가 적고 고품질의 음악 생성이 가능"합니다.

이 회사는 AudioCraft 모델을 오픈 소스 코드로 공개하며 "연구자와 실무자에게 처음으로 자신의 데이터 세트로 자신의 모델을 훈련할 수 있도록 액세스 권한을 제공하고 AI 생성 분야를 발전시키는 데 도움을 주는 것이 목표"라고 설명했습니다. 오디오와 음악.”

Meta는 AudioCraft 모델을 훈련하는 데 사용되는 데이터 세트에 다양성이 부족하다는 점을 인정했습니다. 특히 사용된 음악 데이터 세트는 "서구 스타일 음악의 상당 부분을 포함"하고 영어로 작성된 텍스트와 메타데이터가 포함된 오디오-텍스트 쌍으로 제한됩니다. “AudioCraft용 코드를 공유함으로써 다른 연구자들이 생성 모델의 잠재적인 편견과 오용을 제한하거나 제거하기 위한 새로운 접근 방식을 더 쉽게 테스트할 수 있기를 바랍니다.”라고 회사는 말했습니다.