面壁智能开源 8B 参数多模态模型 MiniCPM-V 4.5，首推 “高刷” 视频理解能力-品玩

品玩8月28日讯，据面壁智能官方消息，面壁智能宣布开源 8B 参数的多模态旗舰模型 MiniCPM-V 4.5，该模型首创 “高刷” 视频理解能力，为行业发展带来新突破。

此前，主流多模态模型受算力、功耗限制，处理视频时多采用 1fps 抽帧，大量视觉信息因此缺失，降低了对动态世界的精细化理解。MiniCPM-V 4.5 通过将模型结构从 2D-Resampler 拓展为 3D-Resampler，实现三维视频片段的高密度压缩。在同等视觉 Token 量开销下，它可接收 6 倍视频帧数量，视觉压缩率达 96 倍，是同类模型的 12-24 倍。在 MotionBench、FavorBench 高刷视频理解能力榜单中，MiniCPM-V 4.5 达到同尺寸 SOTA，且超越 Qwen2.5-VL 72B。

除视频理解外，MiniCPM-V 4.5 在多模态能力上表现出色。图片理解性能领先 GPT-4o、GPT-4.1 等闭源模型，在 OpenCompass 测评中超越 Qwen2.5-VL 72B；视频理解在 LVBench、MLVU 等多个榜单达到同级最佳；复杂文档识别在 OmniDocBench 榜单多项指标取得通用多模态模型同级 SOTA。此外，该模型支持常规与深度思考两种模式，平衡了性能与响应速度。在 VideoMME 视频理解榜单及单图 OpenCompass 测试中，其显存占用、平均推理时间等方面优势显著，采用 3 帧打包策略推理，时间开销仅为同级模型的 1/10。