品玩

科技创新者的每日必读

打开APP
关闭
业界动态

曦望All-in推理试图改写AI产业的“Token经济学”

shuohang

发布于 2小时前

4 月 22-24 日,第十届万物生长大会在浙江杭州举行,本届大会聚焦 AI 赛道,持续发掘与培育未来「AI 小龙」。曦望董事长徐冰在现场发表主旨演讲,「曦望的目标只有一个:就想把大模型推理这件事,做到极致。让推理算力真正变得便宜、稳定、到处能用。」

作为国内第一家 All-in 推理的 GPU 芯片公司,曦望近期再获超 10 亿元融资,这也是今年国内 GPU 赛道最大单笔融资之一。过去一年多,曦望顺利完成七轮融资,累计融资近 40 亿元,成为国内首家估值超百亿的纯推理 GPU 企业。

本届大会上,曦望成功入选 2026「浙江独角兽企业名单」「杭州独角兽企业名单」。

推理负载「力不从心」,亟须原生架构

2026 年,AI 全面进入 "推理落地、智能体普及" 的新阶段,智能体从被动响应的工具变为随时可用、7×24 小时快速响应的人类助理。这也对 GPU 提出更严苛的要求:更低延迟、更大长上下文承载、更低单位功耗,以及更高效的多模态并发处理能力。现有推理架构力不从心。

爆发式增长的推理需求直接导致推理算力租赁价格半年上涨近 40%。"每瓦 Token 吞吐量"成为企业最关注的核心指标。谁能以最低成本持续生产最多高质量 Token,谁就能在竞争中占得先机。

「我们在内部反复思考一个问题:Agent 时代,到底需要什么样的算力底座?」曦望认为,必须用三个硬指标进行衡量:能扛住高频调用的低延迟、能支撑长上下文的稳定性、能持续下降的单位 Token 成本。但现有通用 GPU 无法同时满足这三大要求。

「如果能把推理成本降低 90%,同时保证稳定,整个 AI 行业的账就算得过来了」,徐冰认为,这可以让中国 AI 从现在的高投入烧钱阶段,真正进入可持续的商业化正循环。

重新定义推理芯片,让 AI 推理「便宜又好用」

2026 年 1 月,曦望正式发布新一代推理 GPU 「启望 S3」,这是业内少有的真正为推理而生的 GPU。

曦望砍掉所有训练能力,重新设计芯片和系统,将节省出的晶体管与功耗预算集中投向推理,让单位面积的有效算力提升 5 倍。启望 S3 还创造了两个国内第一:第一个用 LPDDR6 的推理 GPU(兼容 LPDDR5X),显存最大可以做到接近 600GB,成为国内显存容量最大的 GPU;第一个用上 PCIe Gen6 的推理 GPU,让系统通信带宽翻了一倍。这两个技术,专门为智能体准备:能同时存更多用户的对话记忆,处理更长的上下文,而且速度也快、成本大幅降低。

S3 定位不是一颗更强的通用 GPU,它解决的不是「算力大不大」的问题,而是 AI 产业「活不活得好」,这也是对 AI 推理成本曲线的一次重构。徐冰表示,曦望重新定义芯片的核心目标不是去争「算力第一」,而是去追求更好的「Token 经济性」。

目前,曦望已形成清晰的三代产品规划:量产一代、发布一代、预研一代。曦望在研还有 S4、S5 两代芯片,S4 预计 2027 年上市,性能更强、Agent 原生,S5 预计 2028 年上市。

曦望还构建了覆盖计算卡、计算模组、计算平台等全链路产品矩阵,形成完整生态,为各行业提供一体化推理方案。

做 AI 时代基础设施「筑路人」

从生成式 AI 到智能体 AI,再到初露锋芒、热度持续攀升的物理 AI,每一代形态跃迁的背后,都是推理算力需求的指数级增长与架构能力的全面升级。未来十年,支撑中国 AI 产业持续发展的将是规模化、高性价比的推理基础设施。

「曦望想做的,就是为这个基础设施添砖加瓦。安安静静、踏踏实实地,把推理成本一步步打下来,把服务做扎实。让每一个开发者、每一家企业,不用再被算力卡脖子,不用再为 Token 账单发愁,能放开手脚去做自己想做的事」,徐冰说。

扎根杭州创业第一年,徐冰在本届大会上荣获「年度创业人物」。他表示,要让中国有自己的原创 AI 技术,要做真正有长期价值的事。

过去十年间,他见证中国 AI 产业从无到有、从小到大全过程,深刻体会到,没有自主可控的底层算力,再繁荣的应用生态也只是空中楼阁。对于为什么选择杭州,他解释道,杭州「技术」和「产业」结合紧密。「政府有为、市场有效、资本有耐心」的生态,能让企业安下心来,做难而正确的事。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测