腾讯发布音乐生成模型 M2UGen-品玩

腾讯发布音乐生成模型 M2UGen

2024年1月3日

品玩1月3日讯，据 GitHub 页面显示，腾讯联手新加坡国立大学推出一款多模态大模型 M2UGen，具备音乐理解和生成能力。

研究团队表示，M2UGen 模型可以回答音乐相关的问题，还可以已通过文本、图像、视频和音频等多媒体渠道生成音乐，并对音乐进行编辑。该模型利用 MERT 等编码器（用于音乐理解）、ViT（用于图像理解）和 ViViT（用于视频理解），以及 MusicGen/AudioLDM2 模型作为音乐生成模型（音乐解码器），再加上适配器和 LLaMA 2 模型，使该模型具备多种能力。

目前 M2UGen 还处于训练阶段，正式上线时间尚未公布。