品玩8月28日讯,据面壁智能官方消息,面壁智能宣布开源 8B 参数的多模态旗舰模型 MiniCPM-V 4.5,该模型首创 “高刷” 视频理解能力,为行业发展带来新突破。
此前,主流多模态模型受算力、功耗限制,处理视频时多采用 1fps 抽帧,大量视觉信息因此缺失,降低了对动态世界的精细化理解。MiniCPM-V 4.5 通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,实现三维视频片段的高密度压缩。在同等视觉 Token 量开销下,它可接收 6 倍视频帧数量,视觉压缩率达 96 倍,是同类模型的 12-24 倍。在 MotionBench、FavorBench 高刷视频理解能力榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超越 Qwen2.5-VL 72B。
除视频理解外,MiniCPM-V 4.5 在多模态能力上表现出色。图片理解性能领先 GPT-4o、GPT-4.1 等闭源模型,在 OpenCompass 测评中超越 Qwen2.5-VL 72B;视频理解在 LVBench、MLVU 等多个榜单达到同级最佳;复杂文档识别在 OmniDocBench 榜单多项指标取得通用多模态模型同级 SOTA。此外,该模型支持常规与深度思考两种模式,平衡了性能与响应速度。在 VideoMME 视频理解榜单及单图 OpenCompass 测试中,其显存占用、平均推理时间等方面优势显著,采用 3 帧打包策略推理,时间开销仅为同级模型的 1/10。

0 条评论
请「登录」后评论