曦望All-in推理试图改写AI产业的“Token经济学”-品玩

4 月 22-24 日，第十届万物生长大会在浙江杭州举行，本届大会聚焦 AI 赛道，持续发掘与培育未来「AI 小龙」。曦望董事长徐冰在现场发表主旨演讲，「曦望的目标只有一个：就想把大模型推理这件事，做到极致。让推理算力真正变得便宜、稳定、到处能用。」

作为国内第一家 All-in 推理的 GPU 芯片公司，曦望近期再获超 10 亿元融资，这也是今年国内 GPU 赛道最大单笔融资之一。过去一年多，曦望顺利完成七轮融资，累计融资近 40 亿元，成为国内首家估值超百亿的纯推理 GPU 企业。

本届大会上，曦望成功入选 2026「浙江独角兽企业名单」「杭州独角兽企业名单」。

推理负载「力不从心」，亟须原生架构

2026 年，AI 全面进入 "推理落地、智能体普及" 的新阶段，智能体从被动响应的工具变为随时可用、7×24 小时快速响应的人类助理。这也对 GPU 提出更严苛的要求：更低延迟、更大长上下文承载、更低单位功耗，以及更高效的多模态并发处理能力。现有推理架构力不从心。

爆发式增长的推理需求直接导致推理算力租赁价格半年上涨近 40%。"每瓦 Token 吞吐量"成为企业最关注的核心指标。谁能以最低成本持续生产最多高质量 Token，谁就能在竞争中占得先机。

「我们在内部反复思考一个问题：Agent 时代，到底需要什么样的算力底座？」曦望认为，必须用三个硬指标进行衡量：能扛住高频调用的低延迟、能支撑长上下文的稳定性、能持续下降的单位 Token 成本。但现有通用 GPU 无法同时满足这三大要求。

「如果能把推理成本降低 90%，同时保证稳定，整个 AI 行业的账就算得过来了」，徐冰认为，这可以让中国 AI 从现在的高投入烧钱阶段，真正进入可持续的商业化正循环。

重新定义推理芯片，让 AI 推理「便宜又好用」

2026 年 1 月，曦望正式发布新一代推理 GPU 「启望 S3」，这是业内少有的真正为推理而生的 GPU。

曦望砍掉所有训练能力，重新设计芯片和系统，将节省出的晶体管与功耗预算集中投向推理，让单位面积的有效算力提升 5 倍。启望 S3 还创造了两个国内第一：第一个用 LPDDR6 的推理 GPU（兼容 LPDDR5X），显存最大可以做到接近 600GB，成为国内显存容量最大的 GPU；第一个用上 PCIe Gen6 的推理 GPU，让系统通信带宽翻了一倍。这两个技术，专门为智能体准备：能同时存更多用户的对话记忆，处理更长的上下文，而且速度也快、成本大幅降低。

S3 定位不是一颗更强的通用 GPU，它解决的不是「算力大不大」的问题，而是 AI 产业「活不活得好」，这也是对 AI 推理成本曲线的一次重构。徐冰表示，曦望重新定义芯片的核心目标不是去争「算力第一」，而是去追求更好的「Token 经济性」。

目前，曦望已形成清晰的三代产品规划：量产一代、发布一代、预研一代。曦望在研还有 S4、S5 两代芯片，S4 预计 2027 年上市，性能更强、Agent 原生，S5 预计 2028 年上市。

曦望还构建了覆盖计算卡、计算模组、计算平台等全链路产品矩阵，形成完整生态，为各行业提供一体化推理方案。

做 AI 时代基础设施「筑路人」

从生成式 AI 到智能体 AI，再到初露锋芒、热度持续攀升的物理 AI，每一代形态跃迁的背后，都是推理算力需求的指数级增长与架构能力的全面升级。未来十年，支撑中国 AI 产业持续发展的将是规模化、高性价比的推理基础设施。

「曦望想做的，就是为这个基础设施添砖加瓦。安安静静、踏踏实实地，把推理成本一步步打下来，把服务做扎实。让每一个开发者、每一家企业，不用再被算力卡脖子，不用再为 Token 账单发愁，能放开手脚去做自己想做的事」，徐冰说。

扎根杭州创业第一年，徐冰在本届大会上荣获「年度创业人物」。他表示，要让中国有自己的原创 AI 技术，要做真正有长期价值的事。

过去十年间，他见证中国 AI 产业从无到有、从小到大全过程，深刻体会到，没有自主可控的底层算力，再繁荣的应用生态也只是空中楼阁。对于为什么选择杭州，他解释道，杭州「技术」和「产业」结合紧密。「政府有为、市场有效、资本有耐心」的生态，能让企业安下心来，做难而正确的事。