品玩4月2日讯,据智谱官方消息,GLM-5V-Turbo模型面向公众亮相。该模型定位为面向视觉编程的多模态Coding基座,致力于将Agent的感知与行动链路从纯文本延伸至视觉交互领域。其核心能力在于原生理解并处理图片、视频、设计稿、网页界面等多模态输入,支持画框、截图、读网页等视觉工具调用,上下文窗口扩展至200k。
在性能表现上,该模型于多模态Coding、Multimodal ToolUse、GUI Agent等多项基准评测中取得领先。尤其在Design2Code、Vision2Web、AndroidWorld、WebVoyager等反映真实视觉编程与环境操控能力的任务上成绩突出。值得关注的是,在引入强大视觉能力的同时,其纯文本编程与推理能力在CC-Bench-V2等测试中保持稳定,未出现退化。通过与Claude Code、AutoClaw等框架深度协同,模型进一步赋予龙虾Agent以视觉能力,使其能够看懂屏幕信息并执行复杂任务。
该模型性能优势源于其模型架构、训练方法、数据构造与工具链的系统性升级。其应用场景集中于视觉编程领域,可实现从设计稿、草图到可运行代码的直接生成与复刻,并支持交互式编辑。目前,用户可通过AutoClaw、Z.ai等官方指定产品进行体验,或通过BigModel开放平台、Z.ai官方API完成接入。





0 条评论
请「登录」后评论