谷歌发布智能体视觉功能，AI图像理解从静态扫描变为主动调查-品玩

品玩1月28日讯，据DeepMind官方消息，谷歌DeepMind团队为Gemini 3 Flash模型推出名为智能体视觉的新功能。该功能革新了AI处理图像的传统方式，让模型能够像人类一样，通过主动、多步骤的调查来理解和分析视觉信息，从而减少猜测与错误。

新功能的核心是建立一个思考、行动与观察的闭环。模型会先分析问题并制定计划，然后生成并执行Python代码来主动操作图像，例如放大特定区域或进行标注计算，最后观察处理后的新图像以获得更准确的上下文信息，并给出基于事实的最终答案。

这种主动调查的能力，在多项视觉基准测试中，使模型输出质量提高了5%到10%。例如，一个建筑图纸验证平台利用该功能分析屋顶细节，将准确率提升了5%。在处理视觉数学问题时，模型可通过编写代码绘制精确图表，有效避免了大型语言模型常见的幻觉问题。

谷歌表示，当前的Gemini 3 Flash已能智能决定何时需要放大查看细节，未来的版本将能更自动化地执行此类操作，无需用户明确指示。