为什么大脑的计算效率比GPU高100万倍-品玩

“大脑的计算效率比GPU高100万倍”——这是Unconventional AI创始人Naveen Rao在红杉AI Ascend大会上给出的数字。它不是修辞，不是标题党，而是用物理学和神经科学一步步推导出来的结论。全人类的智慧总功耗不过160吉瓦，而今天跑AI的计算机动辄消耗千兆瓦。这中间差了大约一百万倍。Naveen Rao的解法很明确：放弃统治了80年的冯·诺依曼架构，回到物理和生物的底层逻辑，重新造一种像大脑一样省电的计算机。本文编译自红杉资本博客内容，原视频链接：https://www.youtube.com/watch?v=Zw1J5pJJMGw

1.重新定义计算效率

大家下午好，我是Naveen Rao，Unconventional AI的CEO。我们叫“非传统”，但也许这个词用得不对——很快我们就得改名叫“传统”了。没有历史包袱本身就是一种真正的竞争优势。我们能比传统芯片公司和全栈公司快得多地推进，几个月就能完成流片，而不是好几年。这非常令人兴奋。

我放了一个标题在上面——““ASI won't happen without MUCH greater compute efficiency””。我保证在座有人已经在想怎么反驳我了。让我解释一下我的逻辑。当我们说计算效率时，我不是指算法效率或数据效率，很多人在解决那些问题。我说的是最底层的东西：在物理层面，信息处理本身的效率。 大约80年前，我们选择了一条让计算机工作的路径。在科技行业，有多少东西存在了80年？不多。数字抽象、浮点数——这些概念来自1940年代。那台机器是为完全不同的目的、用完全不同的底层构建的。而现在我们在为“智能”构建机器。

AI会让我们更高效，编码、在手机上跑上千个智能体，这些都没错。但谈到真正的能源问题时，我们可能并没有更高效，而是正在撞上物理世界的天花板。今天，AI推理和训练已经在消耗许多千兆瓦的电力。在未来两到四年内——不是十年——我们会面临世界上再也没有多余电力供给AI的局面。这个话题到那时会变得极其紧迫。目前你可以说电力和食物是两种智能的能源来源。电力这边看起来还没有硬限制。但很快会撞上一堵非常坚实的墙。我们可以在太空建数据中心、建核聚变反应堆，这些都可以做。但这些最基础的物理规律依然适用。

那么全人类的智慧到底消耗多少能量？地球上约80亿人，每个人大脑的功耗约20瓦。算下来，全人类的智慧总功耗不过160吉瓦。做个对比：全球总发电能力约9000吉瓦，美国约1000吉瓦。这些电力要支撑所有东西——家庭供暖、电动汽车、工业生产。而我们今天跑AI的计算机呢？单次推理和训练动辄消耗千兆瓦级别的电力，至少也在百兆瓦级别。这中间差了多少？大约一百万倍——换句话来说“大脑的计算效率比GPU高100万倍”。

就算我们把这数字再提高50%，拿到4000多吉瓦来用，问题在于我们当前的计算范式效率实在太低了。如果算推理每个token的能耗，模型构建、运行全算上，我们大概在千兆瓦级别，至少也在百兆瓦级别。而人类只需要20瓦。

你可以说这是40亿年进化的结果。但今天真正的约束变成了：在给定能量下，能多快让学习发生？能多快把智能造出来？ 如果我们想构建一个有大量智能的世界，去自动化各种事情，我们要么需要更多的瓦特，要么需要一个效率极其高的新计算机。这就是我们要做的事。

2.从物理第一性原理重建计算机

大多数人从没认真想过这个问题——他们假设“计算机就是计算机”，从没质疑过这个前提。这就是“非传统”的部分：80年前做的那些假设，今天已经不再成立了。我们只是选择在上面继续堆，因为两年内能做出可卖的产品。我们在走一条不同的路：回到第一性原理，看能不能做出更好的东西。

智能存在热力学极限。 有一条兰道尔原理：它规定了在一定能量内最多能完成多少计算。这是一个无法突破的物理边界，是那条渐近线。生物学在接近这条线的地方——它非常高效。40亿年的进化创造出了极其高效的东西。不过它还没到极限，大概还差一到两个数量级。

我们人类目前的计算机技术在什么位置？在这下面。 今天基于2D光刻技术的芯片，大概在这个位置。我认为通过有方向的努力，我们可以接近2D光刻的极限。这个差距是多少？大约三个数量级。从能源效率的角度看，我们现在的位置和我们应该能做到的位置之间，隔着巨大的距离。这就是我们在做的事情。

3.大脑的秘密：非线性动力学，而非矩阵乘法

怎么做到？不是简单地把计算机做省电一点。我们不能再用完全相同的思路去思考计算机了。

这不是一台运行矩阵乘法的机器。矩阵乘法是一条简单的路，Nvidia当然统治了这个市场并持续推动前沿。但如果你看能效数字——每交付一个FP8浮点运算的实际功率效率——并没有提高多少。成本因制造工艺和封装能力提高而下降，但每次运算的实际能耗、加上内存访问的能耗，并没有变得更好。现在只是非常缓慢的渐进式改进。

我是一个神经科学家，在此之前做了十年计算机架构师。这个问题我想了三十年，对我个人来说这是一个极其激动人心的时刻。

生物学提供了一个存在性证明。 你可以说人类每秒输出的token数量比机器少，但智能水平更高。我们用了那么多千兆瓦，在真正推动科学发现的智能上还没有匹敌人类。我们会在很短时间内达到这一步，但代价是巨大的能耗。

最有趣的是：人的大脑20瓦，猕猴的大脑可能不到1瓦。在整个哺乳动物世界和昆虫世界都能看到这种现象，非常复杂的行为只需要毫瓦级别的功耗。做一下参照：你口袋里的手机功耗大约1瓦。一只在风中从一根树枝跳到另一根树枝的松鼠只消耗不到10毫瓦，是手机功耗的百分之一。我们用一个巨大得多的计算机却做不到松鼠能做的事。

生物学创造了了不起的东西，而我感觉大家还没有充分认识到这一点。 它到底怎么做到的？作为计算机科学家和神经科学家，我必须诚实地说我们并不完全知道——但有些想法可以从神经科学里借鉴。

其中一个关键是：大脑是动态的。它不用矩阵乘法做计算。大脑使用非线性动力学来完成计算。这意味着神经元之间存在随时间变化的相互作用，而正是这种交互承载了计算本身。大脑不做浮点运算，不做矩阵乘法。当然你可以用矩阵来近似描述它，但因为非线性动力学的缘故，它实际上要丰富得多。而且它还是随机的，大脑的计算不是严格的1和0。在数字计算机里，只要一个1或0出了错，整个系统就会崩溃。

所以我常常说，大脑真的不是计算机。

4.用物理替代代码：他们造了一颗能“自己演化”的芯片

让我快速展示一下，这叫“藏本同步”。你看到一组振荡器，它们被刚性地耦合在一块板上。无论初始状态如何，随着时间推移它们会同步。这是一个收敛动力学系统的例子。无论你怎么启动它，它最终都会收敛，而且完全基于振荡器之间的耦合关系。

你可以把这个推广到一个带有灵活耦合的系统——我们称之为可训练的耦合。它可以在动力学状态空间中按各种不同的轨迹运动。再进一步推广，你可以把它想象成电子电路——一组振荡器，以及一个可以配置耦合关系的网络结构。当这个网络结构可训练时，你就能看到一些跟大脑动力学非常相似的东西：它有自己的非线性特性，并以非常丰富的方式相互交互。它可以表征非常大量的信息。

这是我们今年夏天要流片的实际芯片。 从1月份几乎没团队，到6个月做出完整原型——这正是因为有了AI的帮助。这就是不背历史包袱的好处：你可以用完全不同的方式做事。传统的冯·诺依曼机器：写入状态，取回状态，操作，再写回去，反复循环。事实证明，这恰恰烧掉了现有计算系统里绝大部分的能量。

用非线性动力学：设定初始状态，踢一脚，让它自己演化。物理本身完成计算。状态是隐式的，不需要显式读写。某种意义上，你从这次演讲只需要带走一句话：我们利用物理在时间维度上的演化来完成计算，而现有计算架构不是这样做的。

接下来的问题自然是：这个东西能训练吗？答案是能。我可以把系统驱动到不同的目标状态上。事实上我们在状态空间里追踪出了“Unconventional”的标志——这说明这一点。我们可以用几种不同的方式来训练它。是的，我们可以训练这些系统，把它们驱动到任意一组轨迹上。

我现在展示一个演示。这是运行在动力学模型上的东西，它针对不同图像类别进行了训练。我们从随机状态开始。在某个时间点，我对系统施加一次误差反向传播，从随机状态引向某个特定图像类别（比如“马”）。过了那个点之后，让系统按自己的规则自然演化。你会看到它不再只是随机像素，而是形成了有意义的像素群——不同种类的机器、不同种类的动物。

比如马的类别：从随机开始逐步收敛成马的特征，然后随着时间的推移，这些马的特征还会在状态空间中互相演化。这意味着它已经在状态空间里学会了如何在不同的表征之间移动。这是一个真正的新东西正在诞生。

对比现有架构：从冯·诺依曼到动力学系统

CPU：到今天仍是最快的单线程执行工具。它的工作方式就是冯·诺依曼架构——不断在内存和缓存之间进出、执行操作。

GPU：同时对多个操作数做同样的事——把大量操作数从内存取出来、做运算、写回去。

存内计算（如Groq）：跟GPU同样的思路，只不过把计算放在了芯片内部，更细粒度。

动力学系统（我们在做的）：状态和函数重叠，直接整合在物理过程本身之中。不再有状态和计算的分离。

于是计算效率大幅提升——“银河脑力”程度也随之起飞。这真正是非冯·诺依曼架构的。我想留给大家这句话。这是我整个职业生涯的指引。我非常激动，这个问题我想了三十年。我们正处在一个关键节点上：我们终于可以开始理解大脑是怎么工作的了。因为现在我们能把它造出来了。

5.写在最后

Naveen Rao的核心主张很简单：我们用了80年的数字计算机架构，从一开始就不是为智能设计的。他要用物理学的第一性原理，重新发明一种像大脑一样省电的计算机。没有矩阵乘法，没有冯·诺依曼式的反复读写，让物理规律本身来完成计算。他想了三十年，现在终于能把它造出来了。