品玩12月4日讯,北京智源人工智能研究院正式推出新一代多模态大模型Emu3.5,首次实现图像、文本与视频的“世界级统一建模”。
该模型摒弃传统分立架构,将所有模态统一编码为Token序列,专注于“Next State Prediction”(预测下一世界状态)任务,从而掌握物理规律与因果逻辑。
Emu3.5可合理推演视觉动作、语言续写及跨模态演化,显著提升生成内容的连贯性与真实性。专家认为,此举标志着多模态AI从“生成时代”迈向“世界模型时代”,为具身智能、自动驾驶仿真等高阶应用奠定基础。

智源研究院发布多模态大模型Emu3.5
22小时前品玩12月4日讯,北京智源人工智能研究院正式推出新一代多模态大模型Emu3.5,首次实现图像、文本与视频的“世界级统一建模”。
该模型摒弃传统分立架构,将所有模态统一编码为Token序列,专注于“Next State Prediction”(预测下一世界状态)任务,从而掌握物理规律与因果逻辑。
Emu3.5可合理推演视觉动作、语言续写及跨模态演化,显著提升生成内容的连贯性与真实性。专家认为,此举标志着多模态AI从“生成时代”迈向“世界模型时代”,为具身智能、自动驾驶仿真等高阶应用奠定基础。

下载品玩App,比99.9%的人更先知道关于「智源研究院」的新故事
下载品玩App
比99.9%的人更先知道关于「智源研究院」的新故事




0 条评论
请「登录」后评论