李飞飞新动作，推出新视频基准数据集 HourVideo-品玩

李飞飞新动作，推出新视频基准数据集 HourVideo

2024年11月11日

品玩11月11日讯，据斯坦福官方消息，李飞飞与吴佳俊团队联手，推出一个用于一小时视频语言理解的基准数据集，名为HourVideo。

据悉该数据集由一个新颖的任务套件组成，包括总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务。HourVideo 包含来自 Ego4D 数据集的 500 个人工策划的自我中心视频，时间跨度从 20 分钟到 120 分钟不等，包含 12,976 道高质量的五向选择题。基准测试结果表明，包括 GPT-4 和 LLaVA-NeXT 在内的多模态模型与随机概率相比取得了微弱的进步。

与此形成鲜明对比的是，人类专家的表现明显优于最先进的长语境多模态模型 Gemini Pro 1.5（85.0% vs. 37.3%），凸显了多模态能力的巨大差距。