品玩

科技创新者的每日必读

打开APP
关闭

谷歌发布智能体视觉功能,AI图像理解从静态扫描变为主动调查

1月28日

品玩1月28日讯,据DeepMind官方消息,谷歌DeepMind团队为Gemini 3 Flash模型推出名为智能体视觉的新功能。该功能革新了AI处理图像的传统方式,让模型能够像人类一样,通过主动、多步骤的调查来理解和分析视觉信息,从而减少猜测与错误。

新功能的核心是建立一个思考、行动与观察的闭环。模型会先分析问题并制定计划,然后生成并执行Python代码来主动操作图像,例如放大特定区域或进行标注计算,最后观察处理后的新图像以获得更准确的上下文信息,并给出基于事实的最终答案。

这种主动调查的能力,在多项视觉基准测试中,使模型输出质量提高了5%到10%。例如,一个建筑图纸验证平台利用该功能分析屋顶细节,将准确率提升了5%。在处理视觉数学问题时,模型可通过编写代码绘制精确图表,有效避免了大型语言模型常见的幻觉问题。

谷歌表示,当前的Gemini 3 Flash已能智能决定何时需要放大查看细节,未来的版本将能更自动化地执行此类操作,无需用户明确指示。

取消 发布

下载品玩App,比99.9%的人更先知道关于「DeepMind」的新故事

下载品玩App

比99.9%的人更先知道关于「DeepMind」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测