品玩

科技创新者的每日必读

打开APP
关闭
业界动态

难哭了的高考数学题,4家国产大模型表现如何?

shuohang

发布于 6月11日

2025年高考已经来到最后一天,第一天语文和数学两门科目刚结束,数学相关的话题就上了热搜。众多考生纷纷表示,“高中数学难哭”、“考场出来都沉默了”。

(来源网络)

目前已经看到许多家大模型晒出他们语文作文的优秀案例,但数学题还鲜少提及。一方面相比作文,数学题的确更具有挑战,包括逻辑推理的严谨性、数学符号的精准处理、抽象概念的理解深度等等。另一方面,难道是因为今年题目实在太难,连AI都难倒了?不过多猜测,我们也直接找到了2025 年数学新课标 Ⅰ 卷,并挑选了4为大模型“选手”来做题PK。

他们分别是:腾讯元宝(混元T1)、豆包、QWen3、以及文心 X1 Turbo。

4位“选手”都做了数学1卷全套卷子,包括选填题以及解答题。并且每家大模型都选择了深度思考,尽量保证公平性。由于标准答案并没有释放,我们也邀请了多位高中在职教师来交叉验证。

首先,在选择题的部分,我们按照高考实际打分要求,单选题选项正确计分,错误不得分。多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,错选不得分。填空题填空正确计分,错误不得分。

可以看到,元宝和豆包两家表现较为优秀,都只错了一道选择题,拿到了68分(满分73分)。而这道选择题也难到了一众选手,可以说是全军覆没,具体什么题我们稍后再看。另外QWen3和文心 X1 Turbo就稍逊一筹,分别拿到了55分和60分。它们在第8道选择题都犯了难,另外QWen3在多选题中也因为选项没有选全,而失去部分分数。

我们先来看看让所有大模型都失分的“杀手”题,作为唯一一道带图像的题目,里面还涉及两个向量图,各家大模型都理解的不太好。这也是元宝和豆包唯一失误的一道题。

而让QWen3和文心 X1 Turbo都失分的第8题,仔细看发现,QWen3得出了正确的结论但可能误解了题目意思,导致最后给出错误的选项。而文心整体回答上都有些跑偏。

元宝和豆包无论在解题,还是理解题意上都做得比较好,也顺利给出了正确的答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

(客观题评分参考)

接下来再看看真正“难哭”一众考生的解答题,比如第16题,包含了等差数列、函数等多个知识点,各家大模型以及网传的答案有很多版本。

可以看到,这题的难点主要聚焦在第二小问,4位“选手”在第一小问都答出了正确的答案。在第二小问,豆包、元宝、文心 X1 Turbo给出了正确答案,而QWen3出现偏差较远的答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

同样比较有争议的还有第18题,同样的,前面两个小问4位“选手”都给出了准确的答案,其中第二小问,虽每家大模型给出的答案形式不同,但经验证是等价的,故都判为正确。

但第三小问只有元宝给出了准确的答案,豆包、QWen3的答案都不准确,文心 X1 Turbo甚至未能给出一个答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

最后,我们也邀请到了一位高中数学老师来为4位“选手”的解答题打分。打分标准为答案正确即给满分,答案错误,综合考虑过程给分,由于标准答案还未公布,打分仅供参考。

总体来看,元宝和豆包的表现较为突出,元宝仅错一道选择题,拿到了145分。豆包则错了一道选择题、以及第18题解答题的一个小问,拿到了140分的高分。但即使是稍微落后的QWen3和文心 X1 Turbo,也能达到80%-85%的正确率,可以看到国产大模型在数学方面的能力已经有了非常大的提升。

相信未来,随着科技飞速的发展,大模型疯狂“内卷”,整体能力也会再次进化。当面对明年的高考题,大模型是否会能毫无疑问的拿到全科满分了呢?

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测