阿里开源多模态深度研究智能体 WebWatcher，性能超越 GPT-4o-品玩

品玩8月18日讯，据阿里通义千问官方消息，阿里巴巴自然语言处理团队宣布推出 WebWatcher，这是首个开源的多模态深度研究智能体，旨在突破现有闭源系统和开源智能体在多模态深度研究领域的局限性。

目前，闭源系统如 OpenAI 的 DeepResearch 在文本深度研究方面表现出色，但难以处理图像、图表等多模态内容。而开源智能体一类专注文本检索，无法处理图像；另一类视觉智能体则缺乏跨模态推理和多工具协同能力。

WebWatcher 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，具备视觉理解、逻辑推理、知识调用、工具调度、自我验证能力，能处理复杂多模态任务。

其技术方案涵盖数据构建到训练优化全链路。通过随机游走收集跨模态知识链，引入信息模糊化技术，并将复杂问题样本扩展为多模态版本，增强跨模态理解。在训练上，采用 Action-Observation 驱动的轨迹生成方法，结合监督微调与强化学习，提升复杂环境决策能力。

为验证能力，团队提出 BrowseComp-VL 基准测试。实验显示，WebWatcher 在复杂推理、信息检索、知识整合、信息聚合等四大核心领域，全面领先主流开源与闭源多模态大模型。在人类终极考试（HLE-VL）基准中，WebWatcher 的 Pass@1 分数达 13.6%，远超 GPT-4o 的 9.8% 。