品玩8月日6日讯,据谷歌官方消息,谷歌 DeepMind 宣布推出 Genie 3—— 一款通用世界模型,能基于文本提示生成多样化的交互式环境,支持实时导航(24 帧 / 秒),在 720p 分辨率下保持数分钟的环境一致性,成为世界模拟技术的重要突破。
Genie 3 可根据文本描述生成多类动态环境,包括物理世界模拟(如火山地形中机器人避障、飓风来袭时的佛罗里达海岸,能精准呈现水流、光照等物理特性)、自然生态系统(从冰川湖沿岸的野生动物到深海热泉周围的贻贝群,细节涵盖生物行为与环境互动)、奇幻与动画场景(如彩虹桥上的绒毛生物、魔法森林中的树屋,支持虚构角色与奇幻设定)以及历史与地理场景(可还原阿尔卑斯山脉、威尼斯运河、克里特岛克诺索斯宫殿等,突破时空限制)。其核心突破在于实时交互性:用户能实时导航生成的环境,模型可记住 1 分钟前的场景信息,确保长期物理一致性(如重复访问地点时环境不变);还支持 “可提示世界事件”,通过文本指令改变天气、引入物体等,丰富交互维度。作为 DeepMind 十年模拟环境研究的成果(延续 Genie 1/2、Veo 系列模型),Genie 3 是首个支持实时交互的世界模型,为 AGI 研究奠定基础 —— 可通过无限模拟环境训练 AI 代理(如 SIMA 代理),完成复杂任务,未来有望应用于教育(模拟场景学习)、机器人训练(危险环境模拟)等领域。
不过目前 Genie 3 存在局限:动作空间有限、多代理交互模拟待突破、真实地点地理精度不足、交互时长仅数分钟等。为确保安全,其以 “有限研究预览” 形式发布,仅向少量学者和创作者开放,旨在收集反馈以完善风险管控,推动技术负责任发展。DeepMind 计划扩大测试范围,探索 Genie 3 在更多领域的应用,持续推进世界模型技术,助力 AI 安全、高效地服务人类。

0 条评论
请「登录」后评论