品玩1月3日讯,据 GitHub 页面显示,腾讯联手新加坡国立大学推出一款多模态大模型 M2UGen,具备音乐理解和生成能力。
研究团队表示,M2UGen 模型可以回答音乐相关的问题,还可以已通过文本、图像、视频和音频等多媒体渠道生成音乐,并对音乐进行编辑。该模型利用 MERT 等编码器(用于音乐理解)、ViT(用于图像理解)和 ViViT(用于视频理解),以及 MusicGen/AudioLDM2 模型作为音乐生成模型(音乐解码器),再加上适配器和 LLaMA 2 模型,使该模型具备多种能力。
目前 M2UGen 还处于训练阶段,正式上线时间尚未公布。

0 条评论
请「登录」后评论