巨人网络联合高校发布三项音视频多模态生成技术-品玩

巨人网络联合高校发布三项音视频多模态生成技术

2025年11月27日

品玩11月27日讯，据 AI base 报道，巨人网络AI Lab近日联合清华大学SATLab与西北工业大学，推出三项音视频多模态生成技术成果：音乐驱动视频生成模型YingVideo-MV、零样本歌声转换模型YingMusic-SVC及歌声合成模型YingMusic-Singer，相关代码将陆续在GitHub与HuggingFace开源。

YingVideo-MV仅需一段音乐与一张人物图像即可生成节奏同步、镜头语言丰富的音乐视频，并通过长时序一致性机制缓解人物畸变问题。YingMusic-SVC优化真实音乐场景下的歌声转换，显著降低失真；YingMusic-Singer则支持任意歌词输入与零样本音色克隆，提升AI演唱的实用性与创作灵活性。