研发团队表示:“我们使用了20000小时的授权音乐来对训练该模型,并采用me
ta的EnCodec编码器将音频数据分解为更小的单元进行并行处理,进而让MusicGen的运算效率和生成速度都比同类型AI模型更为出色。”
除此之外,MusicGen还支持文本与旋律的组合输入,例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。
研发团队还对MusicGen的实际表现进行了测试。结果显示,与谷歌的MusicLM以及Riffusion、Mousai、Noise2Music等其他音乐模型相比,MusicGen在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好,总体而言略高于谷歌MusicLM的水平。
me
ta已允许该模型的商业使用,并在Huggingface上发布了一个供演示用的网页
应用。