品玩

科技创新者的每日必读

打开APP
关闭

李飞飞新动作,推出新视频基准数据集 HourVideo

2024年11月11日

品玩11月11日讯,据 斯坦福官方消息,李飞飞与吴佳俊团队联手,推出一个用于一小时视频语言理解的基准数据集,名为HourVideo。

据悉该数据集由一个新颖的任务套件组成,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个人工策划的自我中心视频,时间跨度从 20 分钟到 120 分钟不等,包含 12,976 道高质量的五向选择题。基准测试结果表明,包括 GPT-4 和 LLaVA-NeXT 在内的多模态模型与随机概率相比取得了微弱的进步。

与此形成鲜明对比的是,人类专家的表现明显优于最先进的长语境多模态模型 Gemini Pro 1.5(85.0% vs. 37.3%),凸显了多模态能力的巨大差距。

取消 发布

下载品玩App,比99.9%的人更先知道关于「斯坦福大学」的新故事

下载品玩App

比99.9%的人更先知道关于「斯坦福大学」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测