品玩11月27日讯,据 AI base 报道,巨人网络AI Lab近日联合清华大学SATLab与西北工业大学,推出三项音视频多模态生成技术成果:音乐驱动视频生成模型YingVideo-MV、零样本歌声转换模型YingMusic-SVC及歌声合成模型YingMusic-Singer,相关代码将陆续在GitHub与HuggingFace开源。
YingVideo-MV仅需一段音乐与一张人物图像即可生成节奏同步、镜头语言丰富的音乐视频,并通过长时序一致性机制缓解人物畸变问题。YingMusic-SVC优化真实音乐场景下的歌声转换,显著降低失真;YingMusic-Singer则支持任意歌词输入与零样本音色克隆,提升AI演唱的实用性与创作灵活性。





0 条评论
请「登录」后评论