品玩

科技创新者的每日必读

打开APP
关闭

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 逼真对口型人像视频

4月22日

品玩4月22日讯,据微软官方新闻稿,微软公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。

目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可能的面部动态,包括嘴唇动作、表情、眼睛注视和眨眼等行为均视为单一潜在变量(即一次生成整个具有高度细节的人脸),号称能够即时生成 512×512 分辨率 40 FPS 的视频。

微软还利用了 3D 技术辅助标记人脸面部特征,并额外设计了损失函数,号称能够让 VASA-1 不仅能够生成高品质的面部视频,还能够有效地捕捉和重现面部 3D 结构。

取消 发布

下载品玩App,比99.9%的人更先知道关于「微软」的新故事

下载品玩App

比99.9%的人更先知道关于「微软」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测