字节跳动开源全新AI模型LatentSync 精准控制唇形同步-品玩

字节跳动开源全新AI模型LatentSync 精准控制唇形同步

1月6日

品玩1月6日讯，据 AI Base 报道，字节跳动近日开源了一项名为 LatentSync 的创新技术，该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。

这项技术无需任何中间运动表示，即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同，LatentSync 直接利用了 Stable Diffusion 的强大功能，能更有效地建模复杂的视听关联。

研究发现，基于扩散的唇同步方法在时间一致性方面表现不佳，因为不同帧之间的扩散过程存在不一致性。为了解决这个问题，LatentSync 引入了时间表示对齐（TREPA）技术。TREPA 利用大型自监督视频模型提取的时间表示，使生成的帧与真实帧对齐，从而增强时间一致性，同时保持唇同步的准确性。

下载品玩App，比99.9%的人更先知道关于「字节跳动」的新故事

下载品玩App

比99.9%的人更先知道关于「字节跳动」的新故事

AI阅读助手

以下有两点提示，请您注意：
1. 请避免输入违反公序良俗、不安全或敏感的内容，模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务，但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时，您需要自行判断并承担风险；
感谢您的理解与配合

该功能目前正处于内测阶段，尚未对所有用户开放。如果您想快人一步体验产品的新功能，欢迎点击下面的按钮申请参与内测申请内测