品玩

科技创新者的每日必读

打开APP
关闭

阿里开源多模态深度研究智能体 WebWatcher,性能超越 GPT-4o

2小时前

品玩8月18日讯,据阿里通义千问官方消息,阿里巴巴自然语言处理团队宣布推出 WebWatcher,这是首个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源智能体在多模态深度研究领域的局限性。

目前,闭源系统如 OpenAI 的 DeepResearch 在文本深度研究方面表现出色,但难以处理图像、图表等多模态内容。而开源智能体一类专注文本检索,无法处理图像;另一类视觉智能体则缺乏跨模态推理和多工具协同能力。

WebWatcher 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,具备视觉理解、逻辑推理、知识调用、工具调度、自我验证能力,能处理复杂多模态任务。

其技术方案涵盖数据构建到训练优化全链路。通过随机游走收集跨模态知识链,引入信息模糊化技术,并将复杂问题样本扩展为多模态版本,增强跨模态理解。在训练上,采用 Action-Observation 驱动的轨迹生成方法,结合监督微调与强化学习,提升复杂环境决策能力。

为验证能力,团队提出 BrowseComp-VL 基准测试。实验显示,WebWatcher 在复杂推理、信息检索、知识整合、信息聚合等四大核心领域,全面领先主流开源与闭源多模态大模型。在人类终极考试(HLE-VL)基准中,WebWatcher 的 Pass@1 分数达 13.6%,远超 GPT-4o 的 9.8% 。

取消 发布

下载品玩App,比99.9%的人更先知道关于「通义千问」的新故事

下载品玩App

比99.9%的人更先知道关于「通义千问」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测