品玩

科技创新者的每日必读

打开APP
关闭
业界动态

唯一全球前三开源模型!文心4.5系列模型登智源安全榜国内第一

shuohang

发布于 5小时前

近日,智源研究院旗下大模型评测体系 FlagEval 发布最新一期“安全与价值观榜”。在该榜单中,百度开源模型 ERNIE-4.5-300B-A47B 表现突出:总榜成绩位列国内第一、全球第三,在开源模型中排名第一,总合格率达到 85.58%,成为唯一进入全球前三的开源模型。

FlagEval推出的全新“安全与价值观榜单”,围绕语料安全、模型安全、风险防控等关键指标,对主流大模型的安全能力进行系统评估。据了解,本次评测覆盖 18家主流厂商的大语言模型,包括OpenAI、Google、Anthropic、Microsoft、深度求索等国内外头部机构。

FlagEval 最新榜单显示,全球头部模型在安全合规能力上已逐步形成成熟体系。其中,Claude Sonnet 4 以86.76%位居第一,GPT-4.1 紧随其后排名第二, ERNIE-4.5-300B-A47B 以85.58%的综合表现位列全球第三,国内第一,成为唯一进入前三的国产大模型。

值得注意的是,ERNIE-4.5-300B-A47B在开源榜排名第一,是全球唯一进入前三的开源模型,稳居安全合规第一梯队,标志着中国团队在安全合规能力上跻身国际第一梯队。

从行业整体来看,厂商间差异仍然明显。头部模型在策略偏移防御(如拒答率、风险感知)上更为稳定;不同厂商对本地化价值标准的理解差异,也直接拉开了整体得分区间。与此同时,以 ERNIE-4.5-300B-A47B 为代表的领先开源模型正在快速缩小与国际闭源模型的差距。

业内专家指出,安全性正成为衡量大模型可大规模落地的关键指标,其复杂性与专业度正成为核心竞争力。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测