品玩

科技创新者的每日必读

打开APP
关闭

让内存股血流成河的“Google突破性算法”,是又一个离谱大乌龙

一年前的论文,今天被华尔街离谱的理解成了内存杀手

董道力

发布于 11小时前

3 月 25 日,首尔证券交易所开盘不到两小时,SK Hynix 跌近 6%,三星跌 4.8%,KOSPI 指数单日大跌 3%。同一天,美股的 Micron 跌 7%,SanDisk 跌 6.8%,Lam Research 跌 5%。

全球的内存公司迎来黑色的一天,堪比 DeepSeek 在春节引发的核爆。

而引发这波跌停潮的,是谷歌研究院发布的一篇博客文章。博客介绍了一个叫 TurboQuant 的压缩算法,说它能把 AI 的KV Cache存储需求降低 6 倍。

市场逻辑是,过去两年,内存芯片厂商的股价涨了 300%,靠的是一个共识:AI 越来越能干,就需要越来越多的内存,需求没有天花板。

现在Google的新算法既然是解决了“存储”的问题,那必然就打破了内存需求的逻辑。而市场也有点苦内存久已。

于是,华尔街一致认定这就是类似DeepSeek的时刻,内存股应声大跌。

这样的阵仗也迅速传递到中文世界,大家也在讨论Google又带来了一个DeepSeek时刻。

然而,这一切其实都是一场乌龙。

不止是这篇引发血案的论文都不是今天新的成果——TurboQuant 论文最早于 2025 年 4 月 28 日上传到 arXiv(编号 arXiv:2504.19874),至今已经 11 个月。这期间,无人谈论。

而且更荒诞的是,如果你仔细阅读这个研究,会发现它跟引发内存股暴跌的逻辑毫无关系,谈不上什么DeepSeek时刻。

是的,又一场FOMO之下的诡异全民狂欢。

谷歌论文说了什么?

要理解 TurboQuant,先要理解一件事:大模型跑推理时,真正的内存大头不是模型本身,而是对话过程中产生的缓存。

每当模型处理一段对话,它需要"记住"所有历史 token 的信息。这些信息被存成 Key-Value 键值对,叫做 KV Cache,实时写入显存。上下文越长,KV Cache 越大。一个 128K context 的会话,单次推理的 KV Cache 就可以轻松超过几十 GB,对于同时服务 512 个用户的 70B 参数模型,KV Cache 消耗的显存可以是模型权重的 4 倍。

这就是为什么大模型服务商对长上下文收取额外费用,也是"Prompt Caching"作为独立计费项出现的原因。KV Cache 不是算力问题,是内存带宽和容量问题。

TurboQuant 解决的,正是这个问题。

传统压缩方法有一个隐藏成本:每压缩一块数据,就需要额外存储"量化常数"(用来还原的元数据),每个数字额外付出 1 到 2 bit 的代价。压缩越多,这个 overhead 越不可忽视——就像买了个小行李箱,但行李箱本身就重 10 斤。

TurboQuant 用两步解决了这个问题。

第一步是随机旋转量化(TURBOQUANTmse):对向量施加随机旋转矩阵,使每个坐标无论原始分布如何,都服从集中的Beta分布。Transformer注意力机制依赖的是向量之间的内积,不是每个数字的绝对值。旋转之后,坐标分布变得集中且可预测,可以用一套预计算好的最优标量量化表(Lloyd-Max算法)逐坐标压缩,完全不需要存储per-block的量化常数。overhead归零。

第二步叫 QJL(量化 Johnson-Lindenstrauss 变换):第一步之后还有一点残差误差。直接扔掉会导致内积估计产生系统性偏差,影响注意力计算的准确性。QJL 用 1 bit 处理这点残差,利用 Johnson-Lindenstrauss 变换保证估计无偏。

结果就是,KV Cache 被压缩到 3.5 bit,质量完全无损,2.5 bit 时只有轻微下降。A100上,4-bit TurboQuant的注意力计算速度比PyTorch基线快约8倍。

论文中做了一个测试"大模型在超长文章里找一句话的能力"。颜色越绿越好。TurboQuant 压缩了 4 倍,颜色和不压缩完全一样。

更硬的是理论部分。

作者用香农信息论等基本原理证明,任何向量量化算法能达到的理论最优是一个确定的下界,TurboQuant 距离这个下界只差约 2.7 倍的常数因子。这不是"我们实验上效果好",而是"理论上我们已经接近不可能更好的极限了"。

在它所涉及到的技术领域,这确实是一篇有分量的论文,它也入选了 ICLR 2026 主会场。

但即便在同领域里,这一篇论文之后的关注度也并不突出。

论文很硬,但和内存关系不大

直到一年后的今天。

谷歌 3 月 25 日发布博客时,推特上的传播链是这样的:科技博主截图转发,"谷歌革命性算法让内存需求降低 6 倍",媒体跟进报道"AI 内存需求见顶",韩国财经媒体把 SK Hynix、三星和 TurboQuant 放进同一个标题,开盘跌停。

但这个推导链在第一步就断了。

TurboQuant 压缩的是推理时 GPU 显存里的 KV Cache,这是一个软件层的算法优化。

AI 对内存芯片的需求来自三块:模型权重、训练时的激活值和梯度、推理时的 KV Cache。TurboQuant 只碰第三项,前两项完全没动。

更关键的是,AI 内存需求的核心矛盾从来不是"存不够",而是"带宽不够"。HBM(高速缓存)之所以是 AI 基础设施的核心,是因为 GPU 计算核心等不及数据从内存传输过来。HBM 的价值在于它每秒能传多少数据,而不只是能存多少。KV Cache 被压缩到 6 分之一,意味着传输量也降了,这实际上是在把算力和带宽解放出来,而不是在让内存变得不重要。

还有一个问题。TurboQuant 目前没有官方代码。现有的 PyTorch 和 llama.cpp 实现,都是社区开发者自己从论文里扒出来写的。vLLM、Ollama、TensorRT-LLM 等主流推理框架均未集成。实验只在 Gemma、Mistral 等小模型上验证过。70B 以上模型、MoE 架构、1M token 上下文

——这些 AI 内存需求真正爆炸的场景,论文里一个数据都没有。

这次内存股暴跌显然又是一个乌龙,市场对一篇范围有限的算法论文,经过一番诡异的折腾,最终做出了一个关于整个产业周期的判断,并直接真金白银冲击了二级市场。

你能从中看到市场今天对于 AI 的态度:极度FOMO,越发迷茫。

在AI不停用震惊体刺激每个人后,人们面对一个研究成果,第一时间反应已经不再是关心研究本身。比如,在这一次的闹剧里,市场真正在定价的,不是 TurboQuant 本身,而是一个叙事:AI 内存需求可能已经见顶。

这个叙事有它的背景。美光在 3 月 18 日公布了 Q2 财报,营收 239 亿美元,远超预期,但股价在随后一周连跌四天。

市场担心的不是现在,是未来:美光 Q1 资本支出同比增长 68%,达到 53.9 亿美元,这是一个押注内存需求持续增长的巨大赌注。TurboQuant 的出现,给了市场一个"需求可能没那么多"的理由,两个担忧叠加,触发了这波卖出。

但这个推导链,在技术层面就已经断了。TurboQuant 压缩的是推理时的 KV Cache,只是 AI 内存需求的三个来源之一。

经济学里有个概念叫杰文斯悖论:煤炭蒸汽机效率提升之后,煤炭消耗总量反而增加了,因为更多人开始用蒸汽机。

TurboQuant 如果真的落地,最可能的结果是:服务商用节省下来的显存把 context window 从 128K 做到 1M,并发数从 512 做到 5000,总内存需求持平甚至上升。

这些逻辑可能会在未来被市场理解,但此刻整个社会和市场对于AI的讨论最大需求就是情绪价值,一个长链路的技术和产业逻辑显然提供不了情绪,只有“突破性算法”和“DeepSeek时刻”可以。

所以,我们可以期待的就是,这种乌龙只会越来越多,继续频繁的发生。

董道力

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测