豆包大模型“考上”清北的背后-品玩

高考是左右命运的人生“大考”，也是人工智能的试金石。

AI 写作文到 AI解数学和物理题，“炫技”的表演已经很多了，而“解题”被当成系统工程的审视仍然很少。AI 参加高考全科目考试的意义不在成绩，而在方法，以及这种方法在“解题”之外的意义。

按常理思考，当一名 AI 在高考中达到了一本的录取分数线，我们似乎可以认为它能帮我们解决工作中的一些基础需求和问题。而当它能考上985院校的时候，我们觉得可以把一些更需要智能和方法论的复杂任务交给它了。它能考上清华和北大的时候，我们理应派给它一些挑战人类高难度认知和解决方案的使命……等它先真能考上再说吧。

今年，有一个 AI 好像真的考上了。

2025年高考，字节跳动旗下的通用大模型——豆包大模型1.6（Seed 1.6-Thinking），以文科683分、理科648分的成绩，在Gemini 2.5、DeepSeek-R1、Claude Sonnet 4和OpenAI-o3等一系列全球顶级通用大语言模型中，文科位居第一，理科位居第二（仅次于Gemini）。按照最早公布分数线的山东省分数线，综合赋分约为690分，在山东省模拟排名可进入前80名，理论上具备了冲击清华和北大的实力。

豆包能冲击清北，跟人类学霸考上清北，有非常类似的内在“素质”，以及非常接近的“拿分”方法论。

你无法想象一个基础知识掌握不扎实、智商在人均水准之下的学生能考上清北；同理，一个参数不够、训练不完善、知识和语料库不完整的大模型也考不上。更重要的，一个考上清北的学生一定是善于思考、心思缜密、巧于答题时间分配，从全局驾驭一张试卷的高手；同理，一个能考上清北的AI 也得具备强大的思维链条，能用直觉和推理两种能力高效解题，具备从复杂的命题中抽取本质的能力。

问题在于，它是怎么做到的，它为什么重要，以及意味着什么。

「豆包1.6」是如何答题的？

参加高考的是豆包大模型1.6（下称豆包1.6），比起前代的模型，它在两项关键能力上取得了重要的提升：“深度思考（Seed1.6-Thinking）”和“多模态+超长上下文（256K）”。

豆包1.6融合了视觉与文本模态，在一个整体架构下进行训练。它支持高达256K长度的上下文输入——这意味着模型有近似25万字节的信息“瞬间记忆”容量，远超传统模型的上下文长度。

在考试中，豆包1.6可以一口气消化整卷试题，无论是冗长的阅读理解文章、铺陈的资料分析，还是跨页的题干信息，都能一次性消化、不遗漏任何细节。这种就算是最聪明的考生也难具备的能力，对高考科目的拿分是全方位的——语文和英语科目的阅读理解，往往附有长篇文章和整套问题，传统模型可能需要分段处理，而豆包1.6可将全文及所有问题置于统一的上下文中逐一作答，避免了上下文切换造成的信息遗失与错误理解。

打个比方，就是考生把整本试卷打开，正反面都能摊开铺在一张桌面上，凝视数十秒，一次性记忆整套试卷的内容，短期内不会遗忘，然后在答题纸上作答。

而在理科和文科的很多题目中，图片、图表与文字资料往往交织出现，需要考生具备“读图”“识图”的本领。例如，生物考题的细胞结构示意图，化学题的实验装置图或分子结构式，地理题的等高线地形图或气候统计图，政治历史题时常出现的漫画时政图解。这些豆包都通过视觉—语言深度融合训练，即它的VLM（视觉语言模型），具备了从像素中提取关键信息并准确理解它们的能力。

这里有个很有意思的bug：首次测试时，由于使用的网络版试卷图片清晰度较低，豆包1.6和其它模型在化学、生物等依赖图像的科目上普遍失分严重；而当研究团队更换高清试题图片，并采用图文交织的输入方式重新测试后，豆包1.6的化学、生物两科成绩猛增近30分，这让理科总分提升至676分（这就超过Gemini得第一了）。这表明模型之前并非不会做，而是“看不清题”。高清图像让豆包充分发挥出多模态推理潜能，在涉及实验现象观察、结构辨识的题目上找到了正确解答思路。

可以说，多模态能力为模型打开了“视觉理解”的大门，加上超长上下文提供的“全局记忆”，豆包在理科综合题中像是配备显微镜与长卷纸的学霸：既看清每个图表细节，又能把关联信息通盘考虑，层层推演出答案。

让我们再拆解一下豆包Seed1.6-Thinking在各个学科上的“拿分”技能点——

它在语文、英语两门语言科目拿下单科第一，离不开强大的语言理解和表达能力，更得益于模型能综合长篇文章内容并进行逻辑分析。在阅读理解题中，模型可借助链式思考梳理文章脉络、推断隐含信息；在主观表达题（如作文、短文写作）中，模型调动海量语料中学到的知识和范文经验，辅以上下文整体把控，输出结构严谨、立意深刻的篇章。

它在数学与物理学科的表现则凸显了“深度思考”的价值：Seed1.6-Thinking数学成绩超过140分，物理取得了单科最高分。数理题目都充满复杂计算和推导，模型通过链式推理逐步求解，每一步都有条不紊。不少数学和物理题目都涉及多步单位换算、公式推导，甚至综合多知识点。在“自适应深度思考”驱动下，模型仿佛在“草稿纸”上列出了详尽的推演过程，既避免漏解步骤，又降低了出错概率。

在化学、生物科目上，读图和读表是关键的能力——这在视觉障碍消除后的表现中被展露得更为清晰。此外，化学计算题需要繁琐的方程式配平和多步骤数值计算，深度思考使模型敢于在内部展开繁复运算而不担心浪费时间；生物学的分析题常涉及生理过程多环节推理，模型则通过长链思考将各环节因果串联起来，层层推进得出正确结论。

在政治、历史和地理学科，首要得是Seed 1.6-Thinking预训练阶段积累的知识储备——大量高质量学科训练语料和知识图谱，馈赠给了模型扎实的背景知识，也就是模型“书背得足够好”。而史、地、政三科考查的不仅是记忆，还有对材料的分析、对理论的应用。而Seed1.6-Thinking在这三门学科均拿下最高分，意味着模型在掌握丰富的事实与概念与利用链式推理对材料进行批判性分析上面，它掌握得相当出色。

一言以蔽之，多模态VLM+长上下文让模型在考场上“目览八方”——不是偷看邻座的卷子，而是一口气消化完自己眼前的卷子。而深度思考则令其“心思缜密”，灵活答题策略和技巧。

而它在文史和理工科目上的表现皆可圈点，似乎昭示了大型通用模型在复杂认知任务的潜力——通过深度思考优化推理策略、通过多模态长上下文拓展感知疆界。

解各行各业的题

经历过高考胜出，然后又在各行各业的职场和生意场打拼了10年以上的同学可能都清楚：高考那5-6门学科的“解题”，好像是我们漫长的职业生涯和社会角色扮演中最容易解的题。

高考之后生活工作的「题」，“考上清北“的 AI 能不能比清北毕业的人类更擅长？

一个并不复杂的递进思辨是：具备考上清北的能力，同时不受“专业”知识束缚，而具备更强大通用知识和认知习得能力的 AI 也许是可以的。

回到豆包大模型1.6，它的高考解题技巧是“自适应深度思考“和“多模态VLM+超长上下文推理”，这是一种通用能力，而并非专业能力。

人类从事的各行各业充满了智能任务的挑战。几乎所有的挑战都可以总结成两个巨大的壁垒——信息跨度大、推理难度高。

而豆包大模型1.6 作为通用模型，两项关键的能力：“自适应深度思考”和多模态+长上下文处理，分别对准了上述的“信息跨度大”和“推理难度高”这两个关键挑战：“自适应深度思考”是在推理迷宫中找到出口的方法论，而“多模态+超长文本处理”是将散落的信息串联成有意义的整体。

看看金融领域能用它们做些什么——

面对冗长的财务报表和财政法规、铺天盖地的市场数据。模型256K上下文窗口可以一口气读完且保留要点；财务指标异常，模型能找到起对应的法规细则，像资深审计师那样捕捉到潜在风险。

自适应深度思考则令模型思考收放自如：判断某新业务是否违规，模型先定位相关法规条款，情形复杂就逐条对比业务细节与法律条文，演绎出触碰监管红线的可能性，给出有理有据的结论。它既是董秘，也是审计，还可以当分析师。

再看看医疗行业——

医生既要浏览冗长病史，又得凝视影像片上的细微阴影——两种模态的信息需在脑中交汇。豆包1.6的多模态长上下文能将病历文本和 CT、核磁影像一次纳入视野，即便患者多年累积的病史和检验结果也可以一览无余，不会遗漏某次过敏或指标缓慢变化，全局把控为准确诊断打下基础。

诊断过程往往推理难度极高：症状可能相互矛盾、影像特征模糊不清，需要反复演绎各种可能。自适应深度思考可以赋予模型鉴别诊断式的推理能力：情况简单便直达结论，病情复杂则触发链式推敲病因。模型罗列可能疾病、对照影像寻找关键征象并结合病史排除干扰，层层推演后输出清晰的诊疗建议。

还有软件工程——

现代软件项目代码成千上万行，分散于众多文件模块，一个细小漏洞往往藏在跨文件的函数调用链里。调试如此庞杂的系统，以往模型受限于短上下文窗口，只能盲人摸象地片段查看代码。

用256K 上下文，模型可将海量相关代码一次纳入脑海，构建完整的全局视图。某个函数跨文件定义、调用和配置时，模型记住初始假设，追踪调用再关联配置参数，一气呵成找出症结。而自适应深度思考则让模型具备程序员调试时的分层思维：简单情况直接定位错误，隐蔽bug 则自动进入“逐步调试”模式，在内部一步步模拟执行、检查变量变化，甚至穷举不同路径的输出。它的角色相当于一名全栈工程师——字节跳动的编程辅助工具TRAE的背后，也是豆包1.6这个模型。

更重要的，我们引以为傲的“中国制造”——

工厂里的联网设备每刻都在产生日志和监控画面。设备一旦故障，工程师需同时查看分散各处的传感器日志和报警记录，并结合摄像头画面或设备示意图定位问题。这意味着信息跨度极大且烧脑的因果推理。

在这类场景里，具备多模态和超长上下文的模型宛如超级“监工”兼“分析师”。它可读入数小时、数天甚至更长时间范围的关键日志，并同步调取故障发生时的视频截图或设备照片。借助超长上下文，那些散落各处的异常事件被汇聚到模型的时序记忆中：也许凌晨的一次电压微跌与午后的温度飙升看似无关，却被模型串联成潜在因果链。

当画面中某阀门冒烟的瞬间，模型的视觉分析将其纳入推理：压力异常导致阀门老化破裂，烟雾报警随之而起——多源信息最终指向同一故障根因。自适应深度思考则拿捏推理深度：日志清楚表明的简单超标，它直接指出问题；但遇到复杂连锁故障，它耐心层层深挖，将每步因果梳理清晰。可能先推断 A 引发 B，再探究 A 停机原因，如此步步推理，还原事故链条。人类工程师或许要熬夜逐步排查，而模型几分钟内便条理清晰地给出故障报告和修复建议。

以上领域看似迥异，本质上都面临信息跨度大、推理难度高的挑战。豆包1.6 展现的通用模型范式，正是通过超长上下文融合多模态信息，配以自适应深度思考能力，看上去给出了一个目前解决跨行业普适性挑战的较优解。

它展现出的是跨场景的迁移潜力——从考场试题到行业难题，统一的模型架构能应对不同领域和模态的数据，归功于对底层思维方式的灵活调度。这是比“高考“复杂百倍千倍甚至万倍的命题和挑战。一个优秀的高考考生可能要在走出考场之后20-30年才能逐渐积累出解决这些问题的一部分能力，但能考上清北的AI，很可能已经快做到了。

为“解题”而生的引擎

“能看全、能想深”——前者对应的是多模态VLM+ 256K长文本处理，后者对应的是自适应深度思考框架。它们构成了豆包大模型1.6 的两个核心能力，也形塑了豆包作为一个大语言模型的禀赋。

它的后台，是一条被火山引擎云架构拉到极限的高速公路。

2024年 12 月，火山引擎一天处理4万亿 tokens；到了2025年3月，这个数字跳到了 12.7 万亿；5月底又爬到16.4万亿，较发布初期增长了137倍，而且曲线还在抬头。IDC的报告显示：火山引擎在中国公有云大模型调用场景下吃掉46.4%市场份额，接近半壁江山。

这种陡峭的增长对云基础设施提出了严苛考验——如何在峰值流量下从容应对？火山引擎的弹性算力架构给出了优解：庞大的 GPU 集群如同会呼吸的“云端肌肉”，能根据负载实时扩容或回收。当成千上万复杂请求并发涌来，调度系统迅速分配更多算力，确保模型响应依旧稳定迅捷；当夜深流量回落，资源又自动降载休整，不浪费一瓦电力。这种弹性能力使得无论调用频率涨到何种量级，服务都能平稳运行，如同高架桥底下的减震柱，默默消解流量冲击。

弹性的背后是对算力精细打磨和调度优化。火山引擎通过参数与算力解耦、KV缓存复用、异构硬件适配等技术，大幅提升了单卡推理吞吐，让相同GPU集群可以提供数倍的服务能力。在延迟不敏感的场景，系统甚至会巧妙调度旧型号GPU承担部分计算，让“老将”发挥余热，进一步降低成本。

豆包1.6的单位调用的综合成本，相比上一代深度思考模型下降了约63%——只需过去三分之一的价格，就能驱动更强大的模型跑起来。

豆包大模型1.6 和被它“倒逼”优化的火山引擎，对AI应用开发者和企业意味着更多的选项以及可能。

这意味着开发者和企业客户可以用更低门槛、更可控的成本，放心地把海量请求交给云端的通用智能处理，而不必担心算力瓶颈。对于开发者而言，豆包 1.6 那些看似复杂的技能如今都被云平台转化为可调用的 “应用能力”——多模态、超长上下文、自适应深度思考……这些模型特性在火山引擎的打磨下，变成了一系列直观易用的接口和参数选项。晦涩的思维链机制被封装成一个聪明的开关，真正做到了按需取用。

同样，“通用智能”庞大的输入适配能力也被云端巧妙打理，让开发者可以毫无负担地喂给模型任何形式的内容。从法律长文档到高清图像，从代码片段到表格数据，火山引擎都会先行对输入进行预处理和格式转换，再交由模型吞入理解。面对一张图片，平台后台会自动将其转码为模型可理解的向量特征；面对十几万字的长文本，底层会进行分段缓存和上下文管理，充分利用256K的超长窗口，确保模型一次性“读”完文件不成问题。

火山引擎还提供了丰富的行业适配工具，帮助将通用模型快速调校到特定领域的语境中。无论是接入金融行业的专业术语库，还是加载医疗领域的知识图谱，这些附加的上下文与提示都可以通过简单配置融合到模型调用中，使其回答更贴近行业需求。

一言以蔽之：豆包1.6 的推理、语言、视觉能力，经过云基建的二次打包，化作一个个直接调用的功能接口。开发者只需聚焦业务本身，就能让应用具备阅读百页文件、识别图像内容、理解专业语境等智能特长。通用智能的底层技能，被平滑迁移成了各行各业的即取即用工具。

这意味着，火山引擎成了“为应用落地而生的云”——高考其实是一个典型的应用场景，金融、医疗、软件和工业制造也是由形形色色的应用和Agent 构成的，它离应用场景更近。

它的背后，还是把豆包最新模型的两个硬核能力——自适应深度思考与多模态-超长上下文——顺势转译成了直接可消费的应用能力。

前者通过调度器感知推理链长短，将“要不要展开思考”变成一种可以被 API 参数调用、被计量计费的服务档位；后者则把一次吞下 256 K token、跨图文音的感知能力，封装成搜索、编程、巡检等场景一键接入的上下文窗口。

对终端开发者而言，调用豆包并不需要关心背后多少GPU和KV 分片，而是像配置水龙头流量那样：决定是打开“短链秒答”还是“深链剥洋葱”，是上传纯文本还是连同 4K 图像一起喂给模型。火山引擎把“模型能力”做成“产品形态”，是为了方便消费电子秒接语音助手，证券公司一键唤起智能投研，工厂把多源日志和红外图打包送上云就得到故障溯因——算力、存储、带宽、RAG、端云协同在背后默默伸缩，而开发者面向的始终是一套业务语义清晰、颗粒度灵活的 AI 服务。

这种“把底层魔法改造成上层开关”的设计，才让 16.4 万亿tokens的实际生产流量成为可能，而它在最近一次最接近社会公众的表现，是通过“考上清北” 实现的。