品玩9月27日讯,据 Arxiv 页面显示,来自多所高校的研究者近日推出了一款名为VidChapters-7M的数据集,包含817K个用户划分的视频,总共包含7M个章节。
VidChapters-7M是通过从在线视频中抓取用户注释的章节来自动创建的,因此不需要额外的手动注释。研究者们表明,在VidChapters-7M上进行预训练对于零样本和微调设置下的密集视频字幕生成任务具有良好的迁移效果,并在YouCook2和ViTT基准测试上显著改进了最新的研究成果。
实验证明,预训练数据集的规模与下游任务性能之间的良好扩展性。

0 条评论
请「登录」后评论