品玩

科技创新者的每日必读

打开APP
关闭

美团发布VitaBench评测基准 揭示AI智能体真实场景短板

10月21日

品玩10月21日讯,美团LongCat团队宣布,正式推出贴近真实生活场景的大模型智能体评测基准VitaBench,聚焦复杂问题解决能力评估。该基准以在外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建含66个工具的交互式环境,设计400项单场景与跨场景任务,如全流程旅游规划等。

其核心创新在于首次从深度推理、工具使用、用户交互三大维度量化拆解任务复杂度,并提出滑动窗口评估器保障评测精准性。实测显示,即便领先模型在复杂跨场景任务中成功率仅30%,暴露出现有智能体与真实应用需求的差距。

VitaBench现已全面开源,项目主页、论文及代码仓库等资源同步上线,未来将持续维护更新榜单,为智能体研发提供关键基础设施支持。

取消 发布

下载品玩App,比99.9%的人更先知道关于「美团」的新故事

下载品玩App

比99.9%的人更先知道关于「美团」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测