品玩

科技创新者的每日必读

打开APP
关闭

微软发布多模态推理模型Phi-4-reasoning

7小时前

品玩3月6日讯,据 Siliconangle 报道Microsoft正式推出硬件高效型多模态推理模型 Phi-4-reasoning-vision-15B,可处理科学图表等复杂视觉内容。该模型融合SigLIP-2视觉编码器与去年4月开源的Phi-4 Reasoning推理架构,采用“中融合”(mid-fusion)设计——仅部分网络层支持多模态处理,在显著降低算力消耗的同时保持较高输出质量。

训练数据主要来自开源图像及文本对。微软通过多阶段优化流程提升数据质量:保留高质量样本;利用GPT-4o与o4-mini为图像重写不准确描述;并加入内部构建数据、定向收购的高质量语料及有害行为反例,以增强安全性与准确性。

在MathVista_Mini等基准测试中,该模型表现优异,较Google的gemma-3-12b-it高出17%,并在六项以上评估中领先。其支持通过提示动态启停推理功能,进一步优化资源占用。

Phi-4-reasoning-vision-15B适用于构建界面交互型AI系统,能基于截图识别按钮、菜单等UI元素,并解析天文图像等复杂视觉资产。模型代码现已在Hugging Face、GitHub及Azure平台开放。

取消 发布

下载品玩App,比99.9%的人更先知道关于「微软」的新故事

下载品玩App

比99.9%的人更先知道关于「微软」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测