品玩4月15日讯,据CSDN消息,南洋理工大学MMLab团队近日正式推出Hand2World模型。该模型使AI世界模型能够通过空中手势实时生成第一人称交互视频,真正实现了从“被动观察”到“主动触达”的技术跨越,解决了长期存在的手眼交互难题。
针对现有模型在训练与推理阶段因手部遮挡导致的分布不匹配问题,Hand2World摒弃了传统的2D掩码,采用基于3D手部网格(MANO)的投影作为控制信号。同时,模型利用像素级Plücker射线嵌入显式编码相机运动,成功解耦了手部动作与头部视角转动,有效防止了背景漂移。
在技术架构上,Hand2World将双向扩散教师模型蒸馏为因果自回归生成器,支持流式输出与无限时长的连续交互。实验数据显示,该模型在ARCTIC等三大基准测试中FVD指标大幅下降,显著提升了生成视频的视觉质量与3D一致性。





0 条评论
请「登录」后评论