品玩3月6日讯,据 Siliconangle 报道Microsoft正式推出硬件高效型多模态推理模型 Phi-4-reasoning-vision-15B,可处理科学图表等复杂视觉内容。该模型融合SigLIP-2视觉编码器与去年4月开源的Phi-4 Reasoning推理架构,采用“中融合”(mid-fusion)设计——仅部分网络层支持多模态处理,在显著降低算力消耗的同时保持较高输出质量。
训练数据主要来自开源图像及文本对。微软通过多阶段优化流程提升数据质量:保留高质量样本;利用GPT-4o与o4-mini为图像重写不准确描述;并加入内部构建数据、定向收购的高质量语料及有害行为反例,以增强安全性与准确性。
在MathVista_Mini等基准测试中,该模型表现优异,较Google的gemma-3-12b-it高出17%,并在六项以上评估中领先。其支持通过提示动态启停推理功能,进一步优化资源占用。
Phi-4-reasoning-vision-15B适用于构建界面交互型AI系统,能基于截图识别按钮、菜单等UI元素,并解析天文图像等复杂视觉资产。模型代码现已在Hugging Face、GitHub及Azure平台开放。





0 条评论
请「登录」后评论