品玩8月28日讯,据 Github 页面显示,字节跳动近日推出视频生成模型OmniHuman-1.5。
OmniHuman-1.5 可基于单张图像和一段语音轨道,生成与语音节奏、韵律及语义内容一致的富有表现力的角色动画,还可通过可选文本提示进一步优化。受大脑 “系统 1 与系统 2” 认知理论启发,我们的架构将多模态大语言模型与扩散 Transformer 相结合,模拟两种不同思维模式:缓慢、审慎的规划与快速、直觉的反应。这种强大的协同作用使其能够生成超一分钟的视频,具备高度动态的动作、连续的镜头移动以及复杂的多角色互动。

0 条评论
请「登录」后评论