品玩9月7日讯,据 HugginFace 报道,斯坦福大学近日联手 Google和普林斯顿大学,发布一款以对象为中心的数据集PhysObjects。
PhysObjects包含 36.9K 众包和 417K 常见家用物品的自动物理概念注释。研究团队表示,通过从视觉外观中捕获人类对这些概念的先验知识,对 PhysObjects 上的 VLM 进行微调可以提高其对物理对象概念的理解。
据研究团队表示,将这种基于物理的 VLM 与基于大型语言模型的机器人规划器结合到一个交互式框架中,并且与不利用基于物理的 VLM 的基线相比,在需要推理物理对象概念的任务上展示了强大的性能。





0 条评论
请「登录」后评论