品玩

科技创新者的每日必读

打开APP
关闭
业界动态

大模型高考成绩单出炉,讯飞星火语数外实力位居第一梯队

shuohang

发布于 24小时前

  在深度推理的终极考场,AI 正以惊人速度逼近人类顶尖学子水平。

  当 2025 年全国高考 1335 万考生在考场奋笔疾书时,一场特殊的「AI 高考」同步拉开帷幕,DeepSeek、字节豆包、阿里通义千问、腾讯混元、讯飞星火、百度文心等国内第一梯队大模型全部参考。据多家媒体在语文作文、数学、英语作文三科实测中,DeepSeek 成为本年度国产大模型的「高考数学状元」,讯飞星火数学以 1 分之差位于第二,其中英文作文则在多个评测中,得分第一,而通义千问、豆包等模型也在部分科目展现出顶尖实力。

  这场由多家媒体联合专业教师团队主持的跨模型实测,不仅检验了 AI 的文本理解、逻辑推理与语言生成能力,更揭示了国产大模型技术路线的最新格局:在深度推理的赛道上,掀起全民 AI 浪潮的 DeepSeek 依然保有领先优势,全国产算力下 70B 量级的讯飞星火则凭借精准的算法优化与教育领域深耕,已超越更大参数规模的对手。

  语文作文:53 分登顶,破题能力成胜负手

  「全国卷一作文难哭考生」登上热搜当天,六大国产模型同步拿到老舍、艾青、穆旦的名句材料。在界面新闻旗下媒体「电厂」的语文作文评测中,面对「沉默与发声」的哲学命题,讯飞星火以《以歌为刃破长夜且将热血铸山河》破题,斩获杨小晴、曹越两位专家给出的 52/54 高分,杨小晴老师点评讯飞星火作文:「结构如交响乐章,选材如历史长卷。」

  专家评价道,高考作文拼的不是华丽词藻的堆叠,而是深度思考能力的全面展示。讯飞星火的作文将「艺人开不了口」「鸟儿嘶鸣」「带血拥抱」提炼为「中国文人的精神图谱」,直指文明传承内核。其次,用屈原放逐著《离骚》、杜甫茅屋写广厦、常书鸿守护敦煌等案例,构建出了从个体觉醒到文明永续的逻辑链。立意有穿透性,逻辑有纵深度的前提下,配合精准且震撼的文字表达,使得这篇文章精准破题,成为高考作文中的优秀范本。

  DeepSeek 写了一篇 856 字,题为《悲歌当泣》的作文,采用六段式的文体结构。通篇来看,除了首尾段点题,DeepSeek 还在文中每段层层递进地展开探讨了艺术对于困难者、对深陷泥泞的民族、对新生重建的民族、对历史与当下的作用。

  相比之下,DeepSeek《悲歌当弃》虽以艺术救赎苦难的视角获 52.5 分,但敦煌案例被指「缺乏现代表达」;豆包 1244 字超长作文因「沉默与发声辩证不足」扣分;文心一言则因过度抒情跌至 47 分垫底。

  此外,在高考第一天 B 站和机器之心的高考语文作文直播答题+评分直播活动中,B 站 UP 主「语文老师吴小轶」(清华出版社语文主编,教龄 17 年)直播打分,吴老师给到讯飞星火写的《破茧重生:民族觉醒中的生命咏叹》打 50 分,得分超 GPT、 DeepSeek、 Kimi。而在新浪微博、新浪新闻主办的「AI 高考作文盲评挑战」中,讯飞星火在 10 家国内外主流大模型、15 位专业评委老师盲评中,获得第一名。

  数学:143 分学霸诞生,推理效率定乾坤

  高考数学考完后,关于「数学难不难」的话题瞬间爆上热搜,IT 之家联合高中数学教研专家对六大国产推理模型以及 OpenAI o3 进行了实测。在 150 分满分的高考数学实测中,DeepSeek R1 以 143 分夺魁,讯飞星火 141 分紧随其后。两大模型在函数题、数列证明等高难度题型中均展现完整解题链,稳居国内大模型数学能力的第一梯队,在考生中也达到了「尖子生」标准。

  技术团队拆解几大模型的答题过程,发现所有模型在基础题(如填空题)均满分,但应用题表现分化严重。DeepSeek 在 128K 上下文优势明显,复杂题目分步推导无遗漏,但 OCR 识别短板需人工转写题目;腾讯混元,在解题过程中暴露出逻辑连贯性问题。百度文心则出现了公式套用的错误。

  不过,在自媒体「数字生命卡兹克」的高考数学评测中(单选、多选和填空),DeepSeek R1 的得分则低于讯飞星火 X1、豆包 1.5 和混元 T1。

  英语作文:文化适配度成隐形门槛

  在英语作文「盲评」评测中,新京报选择了 2025 年高考英语北京卷作文题目,测评对象为 DeepSeek R1、ChatGPT o3、通义千问 Qwen3、讯飞星火 X1、腾讯混元 T1、百度文心 X1 六款深度推理模型产品。北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文给出了专业评分,由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心 X1、通义千问 Qwen3、ChatGPT o3、腾讯混元 T1。

  在今年高考英语北京卷的作文题目中,「假设你是李华,建议联合国倡议...」这道经典题型成为 AI 的跨文化表达试金石。讯飞星火以「全球气候行动网络」提案分获 20 分和 19 分。

  专家指出大模型英语作文之间的关键差距:讯飞星火内容完整,理由充分且紧扣主题,句式多样(如「twofold」结构),段落衔接自然,展现出对国际议题的精准表达和理解深度。DeepSeek 的作文结构严谨且逻辑流畅,但是 UN initiatives 翻译不够具体到位,以及字数较多实际考试不一定可以写完。ChatGPT 提议「零塑饭盒」却用 this works 口语化表达,腾讯混元用 Glad to hear 开头像聊天软件对话——高考作文需要正式与非正式语体的精准平衡。

  AI 高考启示:是辅助而非替代

  当六大模型作文高频引用司马迁、敦煌壁画等案例时,AI 教育的未来路径浮出水面:AI 是辅助而非替代。深度推理大模型讯飞星火 X1 在写作文前执行的「解析题干-提炼论点-匹配论据」流程,可成为学生日常写作的思考链条,基于不同 prompt 的回答可以启发学生突破套路化表达。

  毋庸置疑,今年高考大模型优秀选手的「AI 味」已经远低于去年,高考数学的作答也是手到擒来,讯飞星火等多家大模型高考数学成绩均突破 130 分,国产大模型推理能力整体上已经实现质的飞跃。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测