品玩11月11日讯,据 斯坦福官方消息,李飞飞与吴佳俊团队联手,推出一个用于一小时视频语言理解的基准数据集,名为HourVideo。
据悉该数据集由一个新颖的任务套件组成,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个人工策划的自我中心视频,时间跨度从 20 分钟到 120 分钟不等,包含 12,976 道高质量的五向选择题。基准测试结果表明,包括 GPT-4 和 LLaVA-NeXT 在内的多模态模型与随机概率相比取得了微弱的进步。
与此形成鲜明对比的是,人类专家的表现明显优于最先进的长语境多模态模型 Gemini Pro 1.5(85.0% vs. 37.3%),凸显了多模态能力的巨大差距。

0 条评论
请「登录」后评论