品玩

科技创新者的每日必读

打开APP
关闭
业界动态

中国电信研究院发布天罡大模型评测榜单,豆包大模型排名国产第一

shuohang

发布于 2024年8月27日

近日,中国电信研究院携手上海人工智能实验室、清华大学等产学研机构,发布了天罡通用大模型评测榜单。该榜单重点围绕大模型的能力和安全指标进行评估,GPT-4o综合成绩排名第一;豆包pro、通义千问Qwen-Max和智谱GLM-4在国产大模型中名列前三。

图:“天罡”通用大模型评测榜单

本次测评通过全面评测维度、权威评测题库、动态抽题、多裁判模型判别和人工审核等机制对国内外主流通用大模型开展了评测,评测对象包括国际头部闭源OpenAI的GPT-4系列、Google的Gemini系列、Anthropic的Claude系列、国内主流的闭源模型以及国内外主流的开源模型,评测结果展示了当前开源/闭源通用大模型整体能力分布和差距。

评测结果显示,GPT-4o在语言理解、认知推理、智能体等方面能力表现出色,总得分82.55分。国内头部大模型豆包、智谱清言在中文场景已达到GPT-4o的90%分位水平。其中,豆包pro模型得分达到79.38分,不仅在国产模型中排名最高,同时也超过了Gemini 1.5 pro、Claude3-Opus、Mistral Large等海外模型。

豆包大模型由字节跳动自研,是国内首批通过算法备案的大模型之一,正在通过字节跳动旗下云服务平台火山引擎面向企业提供服务。在近日召开的火山引擎AI创新巡展上海站活动中,新版豆包语言模型正式亮相,宣布其综合能力相比今年5月首次发布时提升了20.3%。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测