微软发布多模态推理模型Phi-4-reasoning-品玩

品玩3月6日讯，据 Siliconangle 报道Microsoft正式推出硬件高效型多模态推理模型 Phi-4-reasoning-vision-15B，可处理科学图表等复杂视觉内容。该模型融合SigLIP-2视觉编码器与去年4月开源的Phi-4 Reasoning推理架构，采用“中融合”（mid-fusion）设计——仅部分网络层支持多模态处理，在显著降低算力消耗的同时保持较高输出质量。

训练数据主要来自开源图像及文本对。微软通过多阶段优化流程提升数据质量：保留高质量样本；利用GPT-4o与o4-mini为图像重写不准确描述；并加入内部构建数据、定向收购的高质量语料及有害行为反例，以增强安全性与准确性。

在MathVista_Mini等基准测试中，该模型表现优异，较Google的gemma-3-12b-it高出17%，并在六项以上评估中领先。其支持通过提示动态启停推理功能，进一步优化资源占用。

Phi-4-reasoning-vision-15B适用于构建界面交互型AI系统，能基于截图识别按钮、菜单等UI元素，并解析天文图像等复杂视觉资产。模型代码现已在Hugging Face、GitHub及Azure平台开放。