品玩12月21日讯,据 Arxiv 页面显示,清华大学和智谱 AI 发表论文,介绍了一款名为CogAgent视觉语言模型。
据悉,该模型拥有180亿参数,专门用于图形用户界面理解和导航,CogAgent通过利用低分辨率和高分辨率图像编码器,支持1120*1120的输入分辨率,能够识别微小的页面元素和文本。
研究显示,CogAgent在五个文本丰富的和四个通用的视觉问答基准测试中实现了最先进水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。





0 条评论
请「登录」后评论