品玩9月21日讯,据 HuggingFace 页面显示,西安交通大学近日联手旷视科技、清华大学和华中科技大学的研究者共同发布一款名为DreamLLM的深度学习框架。
论文显示,DreamLLM 基于两个基本原则运行。首先是通过在原始多模态空间中直接采样,重点对语言和图像后验进行生成建模。这种方法规避了 CLIP 等外部特征提取器固有的局限性和信息损失,从而获得更全面的多模态理解。其次,DreamLLM 可以生成原始的交错文档,对文本和图像内容以及非结构化布局进行建模。这使得 DreamLLM 能够有效地学习所有条件分布、边际分布和联合多模态分布。
实验显示,DreamLLM首次实现了多功能多模态大语言模型功能,并赋予了多模态理解与创造之间经常被忽视的协同作用。

0 条评论
请「登录」后评论