品玩

科技创新者的每日必读

打开APP
关闭

为什么 Google 一直是你大爷?

从 Gemini 3 本身寻找答案

骆轶航

发布于 6小时前

2024年12月,在跟媒体的私下聚会上,Airbnb CEO Brian Chesky 跟大家滔滔不绝地说起他刚刚提出的、在硅谷引发了激烈讨论的“founder mode” (创始人模式)。

他举的例子是:Google 永远不可能在 AI 领域赶上 OpenAI。他了解他的好朋友 Sam Altman如何亲历亲为、高效地,以权谋和手腕,推动着人类历史上最野心勃勃的创业项目。而 Google,则是官僚主义和大公司病的代表。

Airbnb CEO Brian Chesky
Airbnb CEO Brian Chesky

那会儿 Gemini 2 还没发布,硅谷巨头在大模型领域的成功代表是因为 Llama 而备受赞誉的 Meta,Google 不被看好。

而今年10月再见到 Brian Chesky,他对 OpenAI 的抱怨已溢于言表:他觉得 OpenAI 想垄断一切面向消费者端的 AI,但并不能做到。同时他承认:Google 已经追上来了,Gemini 很厉害。

而当 Gemini 3 问世之时,外界的看法普遍是:Google 不但追上来了,而是已经超越了 OpenAI。正是因为 Google 的反超,OpenAI 拉响了红色警报。

20年以来,你大爷 Google 一直都是你大爷。

2023年2月6日,Google 在 ChatGPT 席卷全球的压力下仓促推出 Bard 大语言模型的时候,乏善可陈的性能表现很快让它成为被群嘲的对象。

一切是在 2024年 12月 Gemini 2 的推出开始改变的。Gemini 2 和 Gemini 2.5 的出色表现,让 Gemini 成为美国 App Store 排行榜第四的热门应用,人们也开始重新审视 Google 的 AI 家底。而 Nano Banana 病毒式传播的精彩亮相,让 Google 甚至展现了创业公司般的灵活性。

因此,Gemini 3 被外界寄予了极高的预期——这通常是一个危险的信号。当外界对一款模型的预期过高的时候,它是很容易翻车的—— GPT-5 就是个典型,它其实没那么差,只是不如人们想象的“神奇”,就成了被群嘲的对象。而 Gemini 3 居然打破了这个魔咒,它几乎惊艳了所有人。

Gemini 3 的多模态的动态交互让 ChatGPT 开创的“聊天框AI” 显得黯然失色;它在编程能力上也快速补齐,不再像一个文科生;而内化在 Gemini 3 里的新版 Nano Banana 已经成了一个完整的 Agent,不仅是视觉呈现,而且在推理方面也极具想象力。

而且,Google 还第一次公开宣称完全采用自己的 TPU 而不是英伟达的 GPU 训练 Gemini,而且,Meta 已经从英伟达“倒戈” 转而采购了 Google 的TPU。显然,这挑战了 OpenAI、英伟达和甲骨文苦心孤诣建立起来的 AI 金融秩序,打压了硅谷已经明显泛滥的 AI 泡沫。

这一切是怎么发生的?Google 还是那个规模庞大、业务无所不包、官僚主义仍随处可见的巨头 —— 甚至两年前被股东和员工呼吁下台为 AI 布局失利担责的 CEO Sundar Pichai 也还在台上,还坐得更稳了。

在最近的一场对谈中,Google CEO Pichai 将这解释为“长期主义”的胜利。Google 积累了数十亿用户的使用习惯,多模态数据的闭环,从芯片到产品的全栈掌控,以及前沿研究的转化机制……

“长期主义” 是个筐,什么好处都能往里装,什么问题也都能用它掩饰。如果“长期主义” 能解释一切,那 Google 一度留不住最聪明的研究人员,任由他们流向 OpenAI 和 Anthropic 是怎么回事?Bard 模型一开始的拉垮又是怎么回事?Gemini 3 今天大放异彩,真的是因为 Google 从2017年 Transformer 诞生以来做的一切都是对的么?

我们还是从 Gemini 3 本身寻找答案。

“生成式 UI”:探索了20年

跳出“ChatGPT 式”的一问一答和聊天框,让人们一句话创建沉浸式的视觉体验和交互界面,如网页、游戏、工具和应用程序,让不断变化和跳动的界面在人们眼前飞舞滚动,而这就是一个视觉元素丰富、可以直接交互和操作的结果。它以视觉布局和动态视图的形式呈现,很炫酷,也很颠覆。

这是 Gemini 3 初一登场最让人眼前一亮和感到兴奋的功能。

问题是,为什么是 Google 能这么做?为什么 Google 能想到该这么做。如果我说 Google 已经这么做了20年了,你信么?

它还真的做了20年了 —— 2005年,Google 上线了 Knowledge Graph,从此,Google 搜索返回的,不再只是蓝色的链接,而是从多个数据源自动组装的信息卡片;2012年,Google 推出 Featured Snippets,开始提取并重组网页内容,搜索直接生成答案;2016年 Google 推出了各种垂直 widgets ——天气、航班、计算器等等,让你不用点击任何链接,就能完成任务。

这些功能都跟 AI 没什么关系,但它体现的是 Google 对生成式 UI 的执念。

世界是视觉构成的,文字只是视觉的抽象。人类天生更亲近视觉,而视觉可以通过搜索引擎自动生成。Google 至少花了10年时间,让人们尽可能不跳转到别的网页,甚至不用下拉 Google 的搜索结果,就能在排在最前面的插件里,直接解决问题。

而 Gemini 3 的生成式 UI, 只是把这个逻辑推到了极致。

你问“三体问题的物理原理”,它即时生成一个交互式模拟器,让你自己调整变量,观察引力相互作用;你让它“比较两种抵押贷款方案”,它即时创建定制化计算器,直接算给你看。用户可能觉得它太炫酷了,可 Google 过去20年一直在做的就是生成结果的 UI 化,无论是不是大语言模型驱动的。

不是因为 Gemini 3 酷,而是因为 Google 的 UI 酷了20年了,这次被搬到了 Gemini 上。这当然需要想象力,但更重要的是经验和直觉。

只是没人讨论这一点——搜索引擎时代的成功经验已经被大多数人认为是过时的、可以抛诸脑后的经验了。如果说 Google AI 翻盘靠的真的是“长期主义”,这是为数不多的、也是最直接有力的例证。

“双子星”与原生多模态的启示

一句话生成一个世界的生成式 UI,离不开多模态的能力,想想看一个三体的交互模拟器里面有多少文字、动画,甚至视频的元素。这也是 Gemini 3 最令人称道的部分:原生的多模态能力。

它天生是感官互通的:当有人问“这个 YouTube 视频里讲的方法,能解决我在这份 PDF 文档里遇到的问题吗?”——很多模型的做法是:先将 YouTube 视频里的内容抽象成文字,再将 PDF 文档里的文本和图表抽取出来变成文字,然后再将两者关联进行推理,然后输出源源不断的文字结果。

而 Gemini 3 的做法是:直接理解视频里的视觉和声音,再理解 PDF 里的文本和图表,然后进行跨模态的推理,再将推理结果以生成式 UI 的插件、动画和动态页面呈现出来。整个过程是多模态的,没有文字和文本赚差价。

更好的例子是 Nano Banana Pro。它已经不是简单的生图应用了,而成了基于 Gemini 3 能力的视觉 Agent。它能把白板上字迹潦草的涂鸦补全成信息含量更高的视觉表格,把一部视频直接变成形象和风格高度一致的漫画,独立完成复杂的信息补齐、推理与风格建构,它真正理解了世界的结构,而不是理解了图像。

Gemini 3 + Nano Banana Pro画的小人书
Gemini 3 + Nano Banana Pro画的小人书

多模态的推理能力,意味着多模态的架构原生。很多人以为多模态就是能模型看图、能听音频,而它真正的意义是在不同模态之间直接建立语义关联。它也意味着:Gemini 3 的训练过程中,文本、图像、视频、音频和代码是统一表征的。

准确地说,从 Gemini 1 开始,它就在不同的模态上进行预训练,再用额外的多模态数据进行微调,以进一步提升效果——这帮助 Gemini 从根本上无缝理解和推理所有类型的输入。它与大部分多模态模型先训练文本模型,再把视觉和音频等能力接上去——文本和图像在模型内部分开处理,再拼接起来的训练方式完全不同。

问题是:为什么从 Gemini 1 开始,原生多模态的训练方法才被启用?是灵光乍现这么简单么?

让我们看看原生多模态的核心技术栈包含了哪些研究层面的成果:首先是2021年的 Perceiver,它是一个处理任意模态的通用架构;继而是2022年的 Flamingo,一项视觉-语言模型的开创性工作;以及同一年的 Gato,通用智能体架构。

可以说,Gemini 3 展现的极强的理解物理世界结构的跨模态推理能力,生成式 UI 的出色表现,以及它本身自带的通用 Agent 功能,都来源于以上三项重要的研究成果。它们在一开始的时候是论文,现在已经变成了 Gemini 的核心技术。

而这些原创的研究成果,都来自2014年被 Google 纳入麾下的 DeepMind 团队。

开创 Transfomer 架构,奠定了当前大语言模型发展主线的是 Google Brain 团队,灵魂人物是 Jeff Dean;而推动 Gemini 彻底翻盘的多模态能力成果属于 DeepMind,灵魂人物是 Demis Hassabis。这两个团队在 Bard 失利之后迅速整合,磨合了两年多,终成正果。

Google DeepMind CEO Demis Hassabis
Google DeepMind CEO Demis Hassabis

可以说,没有 DeepMind 的原创性贡献,就没有 Gemini 一骑绝尘的原生多模态。Transformer 是 Google 对整个AI 学术界和产业界的最大贡献,它自己却并非最大的受益者。但 DeepMind 带来的原生多模态研究成果,毫无疑问被 Google 优先占有了 —— Gemini 3 甚至连一篇最言简意赅的综述性论文也没奉送。

这可不是什么长期主义,Google Brain 和 DeepMind 在2023年4月合并成为 Google DeepMind,是一次代际性的革故鼎新。

要知道,“Gemini” 这个词的意思就是“双子星”。一颗星是 Google Brain,贡献了 Transformer 架构和大规模训练的工程能力,以及越来越重要的 TPU 基础设施;另一颗星是 DeepMind,贡献了视觉-语言模型以及多模态智能体的概念基础,并将它落地。

从 Android 到 DeepMind,两次伟大的整合,与 Google 的两次重塑

回看过去10年硅谷层出不穷的并购,你会发现,Google 2014年对 DeepMind 的收购,毫无疑问是最成功的那个。

历史上 Google 的并购最被诟病的一点就是:整合做得太差。这10年最经常被提及的,是 Google 对明星硬件公司 Nest,以及对智能手机厂商摩托罗拉的收购,都是花了大钱没办成事的那种。

可人们是不是忘了?Android 也是 Google 在 2005年收购而得的团队。正是那场收购,让 Google 凭借 Android 在移动浪潮中有了坚实阵地,让 Google 的软件全家桶横扫几十亿台智能手机。

事关全局战略的并购与整合,Google 是有成功经验的。

2023年以来,Google 对 DeepMind 的整合,与近20年前整合 Android 在很多方面都如出一辙——

Google 保持 Android 和 DeepMind 日常运营相当程度的独立性,团队保持不变,“番号” 继续存在,有独立的办公区域甚至门禁。DeepMind CEO 今天的角色,就非常像当年 Android 的创始人 Andy Rubin。

保持团队独立性的同时,Google 将 Android 和 DeepMind 的核心资产,都全方位、无缝地整合进 Google 庞大的生态体系。Google 的软件生态超过一半建立在 Android 上;而 DeepMind 带来的物理模型和原生多模态能力,与 Google 的 AI、搜索和浏览器也融在了一起。

更重要的,Android 和 DeepMind,都成了重塑 Google 核心竞争力的关键 —— 没有 Android,Google 就得被苹果按在地上打,错失10年的发展机遇,走向百度的那条路;而没有 DeepMind,OpenAI 过去两年按着 Google 打,可能就真把它打趴下了。

其它的并购成功与否不重要,Android 并购整合的成功经验在15年之后复刻在 DeepMind 上,这就足够了。

实现这种史诗性的整合,背后的推手一定是 Google 的两位联合创始人。

2005年收购 Android 的关键决策,是 Google 的联合创始人 Larry Page 做出的,2008年推动 Android 操作系统的主要决策人也是他。当时,Google 的 CEO 是 Eric Schmidt。

2014年收购 DeepMind 的时候,关键决策者仍是已经回归 CEO 角色的 Larry Page,一年后他把 CEO 一职交给了曾主导 Chrome 的高级副总裁 Sundar Pichai。

而据媒体报道,在推动 DeepMind 与 Google Brain 整合过程中扮演关键角色的,是 Google 的另一位联合创始人 Sergey Brin。

Google 联合创始人 Larry Page 和 Sergey Brin
Google 联合创始人 Larry Page 和 Sergey Brin

近日,在接受自家的视频播客 Google for Developers 视频采访时,DeepMind CTO、Google AI 首席架构师 Koray Kavukcuoglu 强调:一个过去被低估的事实是,Gemini 3 不是“模型团队”的胜利,而是工程、产品、模型和安全“第一次从第一天起就被捏在一起” 的推进。

它是 Google 对 OpenAI 完成反超的结构性基础。

Koray 也承认:规模越大,一致性越难,但规模本身就是推进力。在这场艰难的整合中,Google 强大但臃肿的“基础设施” 被激活了。智能的规模化不是靠天才,而是靠管线——这是 Google 同时推进统一模型、多产品落地、跨部门协作、全球化数据管线、超大规模训练与部署,以及 TPU 的集中采用等一系列超级复杂任务的基础。

规模是 Google 的最大难题,但现在成了最大的武器。你很难想象这背后没有创始人的亲历亲为。

在硅谷的人都知道,Sergey Brin 已经常态化出现在 Mountain View 的 Building 43,亲自写代码;偶尔在一些 Gemini 主题的开发者活动上出其不意露个脸,跟开发者互动;在播客访谈时,Brin 也抱怨过“大公司病” 甚至让 Gemini 不能编程有了充分的理由,以至于他不得不亲自下场打破这些陈规旧俗。

过去的两年,在“创始人模式”下,Google 完成了一次彻底的再造,它完成了继 Android 的再一次公司层面的高强度组合,让 Google 庞大的技术工程栈不再是负累,反而成了火箭助推器。以及非常重要的,这个过程中,Google 的“组织能力”变得前所未有强大了。

创始人 Sergey Brin 重回一线,CEO Sundar Pichai 协调关键资源,DeepMind 的灵魂人物 Demis Hassabis 和新上任的 Gemini 产品负责人 Joshua Woodward 密切协作,Google 对 Transformer 核心作者、Character.ai 的联合创始人 Noam Shazeer 的成功反向雇佣收购……

比起 Meta 近期反向雇佣收购 Scale 联合创始人 Alexandr Wang 引发的 Yann Lecun 离职等一系列鸡飞狗跳的事,以及 OpenAI 自 2023年底开始的持续宫斗和接连不断的离职潮,Google 这场整合有多厉害,应该不难体会吧。

如果没有 Google 20年以来对交互生成方式的迷恋,就没有生成式 UI 在 Gemini 3 上的精彩表现。

如果不是 Google Brain 和 DeepMind 在关键时刻捆绑在了一起,就没有 Transformer 开启的大规模工程技术栈与 DeepMind 世界模型前沿研究碰撞而成的原生多模态架构。

如果当年 Google 没有过整合 Android 的成功经验,DeepMind 团队成为 Gemini 3 的灵魂就可能踩到更多的坑,就可能遭遇不可测的人才震荡,面临极高的整合成本……

你大爷之所以是你大爷,是因为它是历史和未来的一部分。

(本文的一些观察和思考受到捏 ta 创始人胡修涵和前智谱生态副总裁李惠子的社交媒体分享启发,特致谢意)

骆轶航

Thomas Luo (骆轶航),PingWest 创始人、CEO、总编辑

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测