品玩10月14日讯,据 Github 页面显示,智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B,该系列模型的能力已经上线智谱清言App。
CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。
CogView3 现已通过Github、huggingface等平台开源。

0 条评论
请「登录」后评论