品玩

科技创新者的每日必读

打开APP
关闭

上海人工智能实验室发布首个AI高考全卷评测结果

2024年6月20日

品玩6月20日讯,上海人工智能实验室近日宣布,收个 AI 高考全卷评测结果现已发布。据悉,高考刚结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。

司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型(简介如下)参与本次“大模型高考”评测。

  1. Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。
  2. Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
  3. GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
  4. InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。
  5. Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
  6. Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。

因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。

首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,InternLM2-20B-WQX取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。

取消 发布

下载品玩App,比99.9%的人更先知道关于「高考」的新故事

下载品玩App

比99.9%的人更先知道关于「高考」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测