品玩3月10日讯,据腾讯官方消息,腾讯混元团队宣布开源业界首个面向世界模型的强化学习后训练框架——WorldCompass。此举标志着世界模型从“预训练时代”迈向“强化学习精细化调优时代”,旨在解决当前模型在复杂指令执行与长时序交互中的关键痛点。
当前主流世界模型(如混元世界模型1.5)主要依赖预训练,在应对用户复杂的组合动作指令时,常出现“听不懂”、执行不精准等问题。WorldCompass正是为破解此难题而生,它作为一个“指南针”,通过引入强化学习机制,对已预训练的世界模型进行精细化调优,使其能更准确地遵循指令探索虚拟世界,并保持长距离漫游的视觉一致性。
评测结果显示,在开源SOTA模型WorldPlay上应用WorldCompass后,模型性能实现质的飞跃。在最具挑战性的复合动作场景下,交互准确率(Accaction)从约20%大幅提升至55%以上,提升幅度超过35%;基础动作准确率亦有显著提升,同时视觉保真度评分(HPSv3)也得到有效改善。





0 条评论
请「登录」后评论