品玩

科技创新者的每日必读

打开APP
关闭

面壁智能开源 8B 参数多模态模型 MiniCPM-V 4.5,首推 “高刷” 视频理解能力

7小时前

品玩8月28日讯,据面壁智能官方消息,面壁智能宣布开源 8B 参数的多模态旗舰模型 MiniCPM-V 4.5,该模型首创 “高刷” 视频理解能力,为行业发展带来新突破。

此前,主流多模态模型受算力、功耗限制,处理视频时多采用 1fps 抽帧,大量视觉信息因此缺失,降低了对动态世界的精细化理解。MiniCPM-V 4.5 通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,实现三维视频片段的高密度压缩。在同等视觉 Token 量开销下,它可接收 6 倍视频帧数量,视觉压缩率达 96 倍,是同类模型的 12-24 倍。在 MotionBench、FavorBench 高刷视频理解能力榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超越 Qwen2.5-VL 72B。

除视频理解外,MiniCPM-V 4.5 在多模态能力上表现出色。图片理解性能领先 GPT-4o、GPT-4.1 等闭源模型,在 OpenCompass 测评中超越 Qwen2.5-VL 72B;视频理解在 LVBench、MLVU 等多个榜单达到同级最佳;复杂文档识别在 OmniDocBench 榜单多项指标取得通用多模态模型同级 SOTA。此外,该模型支持常规与深度思考两种模式,平衡了性能与响应速度。在 VideoMME 视频理解榜单及单图 OpenCompass 测试中,其显存占用、平均推理时间等方面优势显著,采用 3 帧打包策略推理,时间开销仅为同级模型的 1/10。

取消 发布

下载品玩App,比99.9%的人更先知道关于「面壁智能」的新故事

下载品玩App

比99.9%的人更先知道关于「面壁智能」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测