Images 2.0进入“文艺复兴”时刻：周活15亿张，下一步是创作型智能体-品玩

OpenAI 最新一期博客这一期，主持人 Andrew Mayne 与 OpenAI 研究员 Kenji Hata、产品负责人 Adele Li 聊了聊 Images 2.0。Images 2.0不只是“画得更好了”，而是图像生成正在从一个“创意玩具”变成“生产力基础设施”，并且下一步会进化成能理解你、帮你干活的“创作型智能体”。这场对话的核心内容是：图像生成正在从“创意玩具”变成“生产力基础设施”，下一步会进化成能理解你、帮你干活的“创作型智能体”。文字渲染的突破打开了专业场景——以前的模型做文字像乱码，现在能生成整页清晰排版和多语言信息图，OpenAI内部超过一半的PPT配图已用ImageGen生成。“世界知识”被注入模型后，一个生物学教授测试发现它生成的研究生级教科书插图“完全准确”。用户端最火的趋势反而是用这个强大模型生成“Microsoft Paint风格”的潦草画——Adele说，“要把东西做得不完美，需要很高的智能。”而ImageGen与Codex打通后，用户可以先画界面概念图，再让Codex直接实现成App——这是从“生成图像”到“把图像变成产品”的跃迁。以下是本期博客完整内容的编译。

1. 从投资圈跳进OpenAI做图像，产品经理的“跨界”逻辑

主持人： Adele，先聊聊你自己。你是怎么成为 OpenAI 产品经理的？

Adele： 我两年多前加入 OpenAI。来这里之前，我整个职业生涯都在做投资。我先是在私募股权领域工作，后来在 Redpoint Ventures 做了三年，主要投 AI 和软件公司。我刚加入 OpenAI 时，做的其实完全不是现在这个方向，当时我在想的是，怎么把数据和算力基础设施搭起来。后来慢慢转到了产品侧，过去六个月，我一直在做 ImageGen。

主持人： 挺有意思的。你从一个角色切到另一个角色，最后走到了这里。某种程度上，这也说明一个人可以在不同位置上发挥价值。

Adele： 完全同意。我觉得产品经理的工作，本质上就是哪里需要，就去做哪里。尤其在 ImageGen 这个项目上，我觉得自己确实调动了很多不同的能力：既要和 Kenji 这样的研究员合作，也要想清楚今天市场的空白到底在哪，我们要抓住的机会是什么。这已经不是一年前我们第一次发布 ImageGen 1.0 时的市场了。今天的竞争格局完全不同，市面上已经有很多图像生成产品；与此同时，ChatGPT 自己也已经变成了一个完全不一样的产品和公司。所以，重新思考 ImageGen 的演进方向，以及它在 ChatGPT 里的角色，对我来说特别有意思。

主持人： Kenji，那你是怎么做上图像的？

Kenji： 其实我刚加入 OpenAI 也是差不多两年前。一开始我在做一个挺随机的音频项目，那是我的第一个项目。后来我慢慢开始帮团队推进 ImageGen 1.0 上线前的工作，做着做着就越做越多，最后就全职投入这个项目了。

2. Images 2.0 上线后，发生了什么

主持人： 现在这个模型的市场反馈怎么样？

Adele： 模型上线两周以来，使用量已经涨了 50% 以上。现在 ChatGPT 每周会生成超过 15 亿张图片。我们还看到很多全球性的病毒式趋势——亚洲那边，颜色分析和贴纸很火；美国这边，蜡笔风、涂鸦风在爆。与此同时，也有很多用户在探索一些我们原本没预料到的新用法。我觉得这既说明了模型的能力范围真的很广，也说明用户几乎能立刻通过“看图”感知到这次模型进步有多大。用户给我们的反馈里，有一种非常直观的视觉判断：他们会说，这是他们见过保真度最高、质量最高的静态图像模型。这一点真的很让人兴奋。

主持人： 这次感觉像一次特别大的变化，甚至大到不太像“Images 2.0”，更像一种新范式，因为能力的提升实在太夸张了。它是怎么做到的？

Adele： 一开始做这个项目时，我们就坐下来认真讨论过：我们到底想实现什么级别的能力跃迁，想把哪些用例真正做出来。我们相信，图像生成能做的事情，远比今天已经做到的要多得多。你今天能看到的几乎所有视觉内容，本质上都可以被压缩成图像生成的输出形态。所以这次 2.0 的目标，就是沿着这条路线把多个关键维度一起往上推。

第一是文字渲染，现在图上的文字清晰度高了很多，语言和单词本身也终于真正“说得通”了。第二是多语言，我们非常明确地在推进模型对多语言的支持，现在已经能看到亚洲和欧洲用户对这些改进的反应特别明显。第三是照片级真实感，我们从上一代模型收到很多反馈，说图片看起来不够真实，或者会把人的脸、身体改得不对。所以这次我们的一个核心目标，就是怎么让图像更像“你自己”。

再加上世界知识。很多你以为模型知道的东西，它确实知道，因为它把关于这个世界的知识吸收进去了，并且能把这些知识以视觉形式表达出来。这些能力叠加起来，才构成了今天这个最前沿的图像生成模型。我们认为它是当前市场上审美表现最强的模型，也代表着图像生成进入了一个全新的阶段。这本身也是 AI 整体进步中非常重要的一部分。我们也会持续听用户反馈，包括社交媒体上的声音，我们会把这些问题都记下来，在下一轮迭代里尽量缓解，或者直接修掉。

3. 图像生成，开始从好玩走向生产力

主持人： 你们现在看到的用例，主要有哪些？

Kenji： 有一类用例，研究团队内部也特别关注，就是信息图和图文内容。图像里的文字能力现在强了太多，所以生产力场景一下就被打开了。从研究的角度看，过去大家总觉得图像生成偏娱乐、偏玩具，不太适合严肃工作。但现在我们确实看到了它一步一步进入生产力场景，几乎任何你能想到的用途，都开始变得可行。

主持人： 你刚说到文字。我记得早期模型做字的时候——无意冒犯黑猩猩——拼出来的“OpenAI”看上去就像是黑猩猩打出来的。现在我看它已经能生成整页文字、很细的排版，这个提升非常明显。我知道模型更聪明之后，变量绑定、对象之间关系理解都会变强，但这次依然是特别大的跨越。

Kenji： 是的，但这又不是完全意外的跳变，更像一条持续向上的曲线。如果你去看从 DALL·E 3 到 GPT Image 1 的变化，再到 1.5，再到现在，其实每一步都很清楚。比如我们内部会做一个测试：给模型一张随机物体网格图的任务。DALL·E 3 大概能做对 5 到 8 个；Images 1 大概能做到 16 个；1.5 能稳定到 25 到 36 个；现在我觉得已经能做到 100 个以上。我们内部有时会让 GPT 先随机列出 100 个物体，然后把这个列表发给图像模型，看它到底能对多少，通常现在已经接近 100 个都能做对。所以我觉得这不是突然发生的，而是稳定持续的增长。

主持人： 我以前在 Ada、Babbage、Curie 那些很早期模型时代，也会用类似测试，比如“列出 100 本科幻小说”，结果到 22 本左右就开始重复，说明模型已经撑不住了。你们现在还做出了 360 度全景图。这是怎么来的？

Adele： 这其实就是模型能力自然涌现出来的结果。核心在于，它现在能很好地处理各种纵横比。我们发现用户开始生成特别长的全景图，也有人做很瘦很长的书签图。后来我们意识到，这个模型不仅能适配这种超宽比例，还能直接生成 360 风格的图像。而且这些图放进 360 场景里看，效果特别有意思。所以我们后来就把它正式做成了产品功能，现在 ChatGPT 网页端和移动端都能用。

主持人： 我做的第一张，就是“狗狗打牌”的 360 版。你站在里面，就像自己也是桌边的一只狗，四周都能看。这种体验我以前完全没想到，但真的很好玩。

Adele： 是啊，用户探索出来的新玩法，常常比我们自己最初设想的更远。我们在设计模型时，其实非常认真地研究过：人们到底希望图像生成做到什么。这个需求一直都在，只是以前很多方向模型还做不好。文字渲染就是我们特别想补上的一项，多语言也是。还有一点，是这代模型对世界的理解整体提升了很多。这意味着，大家现在会开始在网上分享很多以前压根没法做、或者我们没想到有人会做的例子。这个模型对不同审美语境的理解能力也变强了：它既能做一个梗图，也能做适合五岁孩子看的图，还能做专业咨询公司的演示材料。这种输出空间的扩张，真的很惊人。

4. 用户追求粗糙，模型追求真实

主持人： 最近还有个挺有意思的趋势：大家会把流行图片或人像，故意让模型生成那种很糙、很像 Microsoft Paint 画出来的版本。你们想到过这么强的模型会被用来做这种故意“难看”的东西吗？

Adele： 这挺有意思的。因为要把东西做得“不完美”，本身其实需要很高的智能。我经常这么跟别人说。最近网上这些病毒式趋势里，一个很明显的主题就是：真实性、不完美感、怀旧感。Microsoft Paint 风、蜡笔风，以及各种类似风格，都是这个倾向的表现。消费者其实是在用这种方式表达：他们希望和 AI 的互动是带点真实感、带点不完美的。他们想让 AI 帮自己变得更好看，但同时也希望能保留自己更好玩、更傻气、更松弛的一面。我觉得，通过 AI 去做自我表达，会是一个特别重要的方向。某种意义上，这也很符合我们公司的使命：让人更容易学习和获取智能，同时也能表达一个原本不那么容易表达出来的自己。

主持人： Kenji，在训练过程中，有没有哪个瞬间让你觉得：行，这次可以上线了？

Kenji： 有。训练过程中我们会不断拿 checkpoint 出来采样，看效果到底怎么样。有一次我们采了一张图，然后又拿 ImageGen 1 的结果做对比，我们看完就说：好，这个已经比 1 强了。就是那种一眼就知道的差距。

主持人： 我记得早期 DALL·E 版本迭代的时候，一开始画面里总带着那种雾气、触手一样奇奇怪怪的东西。我当时问研究员，这个毛病会不会消失，对方说，大概再跑两轮就差不多了。后来还真是，一下子画面就清楚了。再往前，如果你玩过 GAN，那时候很多图都得眯着眼睛猜“这大概是一辆皮卡吧”。所以这种“突然看起来就完全不一样了”的时刻，总是很震撼。

Kenji： 是，真的特别明显。你拿一个早期 checkpoint 的图，再拿一张 ImageGen 1 的图放一起看，差别大到几乎不需要讨论。我都忘了当时具体是哪张图了，可能只是“一个站在海边眺望的女人”之类的非常普通的图。但我们看完就知道：没问题了。

主持人： 这次最大的跨越，就是照片级真实感。之前那种图更像光鲜亮丽、被修过度的杂志封面；现在更像一张真正拍出来的照片。那除了堆更多算力之外，它到底是怎么发生的？为什么它既变强了，又没有慢到生成一张图要等一个小时？我还记得 DALL·E 早期，真的得等很久，现在它已经能在 ChatGPT 里更快地产出结果了。它怎么做到既更聪明又差不多同样快？

Kenji： 我觉得每一代发布，我们都会学到很多东西。从 1 到 1.5，再到 2，每一步都积累了不少经验。这些经验会被带进下一代。比如速度这个问题，我们就会想，能不能让模型在更少 token 的情况下，也产出很好的图。这次我们确实做了很多工作，让它用更少 token 也能出高质量图像。另外，这一代的后训练也非常有意思。我们不只是要让模型理解世界知识，知道科学概念、数学概念在图像里该怎么呈现；还要思考，什么样的审美才会让用户真正觉得好看。什么叫美？怎样才算真实？这些问题，都是我们在后训练阶段必须正面处理的。因为对我们来说，这一代模型必须是当前最强的审美模型。也就是说，不管你要的是专业输出，还是个人化表达，它都得有更强的创造力。而这种覆盖多类用例的训练范围，本身就让这次训练变得非常有挑战。

5. 内部都拿什么测图像模型？

主持人： 你们有没有自己特别喜欢的 benchmark？比如每次都会想拿某张图试试看。

Adele： 我有一个评测，叫“me, me, me eval”。里面有 100 张我自己、朋友、家人的照片，我会把每个人都放进各种搞怪场景里。我几乎给每个人都做过卡片或生日图。这个评测特别好的一点在于：你最熟悉的，永远是你身边人的脸。而且你确实会想拿模型做一些有趣、跟现实有关的内容。所以从产品经理角度，我测的不只是模型原始能力强不强，也会看 ChatGPT 在这个上下文里，到底懂不懂我想要什么。比如 ChatGPT 记得我有兄弟，也记得我爸妈，以及他们喜欢什么。那么模型能不能在关键时刻，把这些个性化信息准确放进图片里？这些都是我会测试的东西。你呢？

Kenji： 除了前面说的网格测试，我用得最多的大概就是照片级真实感相关的测试。有一阵子我和 Divya 很关注这个方向，一直在猛推。我记得 Divya 最喜欢的测试图是“一个女人手里拿着一壶橙汁”。不知道你有没有见过，网上这类图特别多。

主持人： 我感觉研究员们其实都有一套比他们嘴上说的更固定的标准图集。

Kenji： 是的，比如那种标准题：一个人左手写字、右手戴表，旁边有个钟显示某个时间。我觉得图像模型在 1 或 1.5 时期的一个大跨越，是“半杯红酒”的测试。以前酒杯边缘经常会折掉、变形。早期虽然也能通过特别细的 prompt 勉强做出来，比如你得明确写“红色液体装在这个容器里”，但这代模型就自然多了。

主持人： 我还试过一个特别好玩的：有人说它画不了像素级的 pixel art，我一听这种话就会想，行，那我们试试。后来我给它一个 64×64 的网格，说就在这个网格里画像素风，结果它真的做出来了。这就很能说明它的可提示性已经强到很夸张的程度。你们是怎么为这种能力做准备的？还是说，这本身也是自然长出来的？

Adele： 很多人来用 ImageGen 时，prompt 都特别模糊，比如“让它更好一点”“让我更好看一点”“让我更可爱一点”。这些指令其实都很虚。所以模型和整个产品框架的任务，就是把这些模糊意图尽量还原成用户真正想要的东西。而这其实就是我们长期训练出来的一种“模型人格”。说实话，这也会带来很多出人意料的结果，而这种惊喜本身就是 ImageGen 好玩的地方。

6. 提示词不是公式，而是审美与判断

主持人： 我一直觉得，图像生成里的提示方式，大概已经出现了两种路线。以前 DALL·E 时代，我还以为自己是“提示词工程师”，应该会很擅长这个。我写个“太空里的浣熊”，就觉得自己挺厉害。但后来我看到一些真正来自艺术行业的人——他们不是所谓的 prompt engineer，他们本来就是那个领域里的人——他们写出来的语言完全不一样，结果也好得多。现在看，这个规律好像还是成立的。

Adele： 绝对成立。我们在开发这个模型时，和一群艺术家合作得非常密切。艺术家、设计师、营销人员，这些职业给了我们很多启发，因为他们理解自己专业的方式本来就不一样。对我们来说，一个很重要的方向，就是把这些职业里的灵感和最佳实践，尽量蒸馏进模型交互方式里。这是我们刻意在做的事情。还有一个我觉得特别有效的技巧，就是给模型上传参考图或上下文。模型现在特别擅长抓住这些材料里的“精神”，并把它转译到最终输出里。

主持人： 但这件事也挺有意思。很多人会担心，按钮越来越简单，点一下就能得到一张漂亮图，是不是人就不需要投入了。可现实恰恰相反。模型越强，门槛确实越低；但真正投入精力的人，能得到的结果反而更惊艳。而且看起来，如果你本身就有艺术训练，你反而会拥有更高的控制力。因为模型现在更能理解你在说什么，比如景深之类的概念，或者你想实现的其他视觉语言。我以前也见过一些艺术家说：我把自己的原作丢进去，模型给了我一些变体，而我知道哪一版是对的。那种感觉特别像一个真正的创作放大器。

Adele： 是的。如果你本身有创作方向感、有审美、有判断，把这些带给模型，就是把它能力继续往上推的最好方式。我特别喜欢这一代模型的一点，就是它把每个人的创作出口都拓宽了。你现在想做多种风格、多种形式、多种变体，比以前任何时候都更容易。而且它对不同语境的理解切换特别自然：上一张还在做建筑图解，下一张就能进入儿童绘本的审美。它能在这些不同维度之间顺滑切换，这点特别强。

7. 为什么教育和研究圈会兴奋

主持人： 它现在做信息图和示意图已经非常强了。研究和教育领域的人，给了你们什么反馈？

Kenji： 我们内部有一个 alpha 测试频道，专门拿来试各种模型。里面还有一个子频道，专门面向教育工作者，从小学一直到研究生层级都有。我见过一个特别酷的例子：一位生物学教授上传了几页研究生级别教材里的图示，讲的是一些我完全看不懂的内容，但他说模型生成得完全准确。我觉得这个模型最强的一点之一，就是它能把非常复杂的主题压缩成一张很容易理解的图。我们已经看到学生和老师都在用它学习概念、做学习指南，也在用它生成个性化内容。个性化学习是我们特别关注的大方向，而 ImageGen 让老师能够做出每个孩子都能用自己的语言、自己的偏好去理解的内容。这是我们非常兴奋的事情。我们也在想，怎么把更多 ImageGen 的能力融入整个 ChatGPT 的学习体验里。以后人们学概念时，可能本身就是通过 ImageGen 来学的。

主持人： 我记得我上学那会儿，在多媒体还没完全普及之前，教室里那种解释知识点的大海报特别常见。ImageGen 现在让我重新意识到信息图有多强大，因为你可以把很多注意力压缩进一张图里。人可以停下来，一直看、一直理解，而且还能塞进去更多细节。还有一个我看到的特别明显的变化是：OpenAI 内部的演示文稿里，现在有超过一半的幻灯片是用 ImageGen 做出来的。

Adele： 对。图像开始渗透进日常沟通，本身就是一件很强大的事。因为你在解释概念、表达想法的时候，视觉化会让事情变得更容易。而信息图、文字渲染能力、以及文字在页面上的整体构图，这些叠加起来，正是这个模型很强的地方。模型不仅知道该说什么，还知道怎么把它呈现出来，这是一种超能力。我们接下来也很期待继续往前走：怎么把版式做得更好、输出形态做得更多样、以及怎么让它在产品里变得可编辑。这些都是我们特别兴奋的方向。

8. OpenAI的下一步棋：创意代理+编码能力

主持人： 你怎么看接下来的发展？因为每次我跟 OpenAI 的人聊他们在做什么，对方通常都会说：这个已经不错了，但……

Adele： 我觉得我们现在还处在特别早期的阶段。人们到底想把这个模型推到哪些用法上，其实还远远没有被探索完。所以我们最兴奋的下一步，是把 ImageGen 往“创意代理”推进。理想状态下，它会成为一个能和你并肩工作的创意助手，理解你的工作方式、理解你的偏好、理解你最后到底想得到什么，然后围绕这些去搭建产品和模型体系。它应该像一个个人室内设计师、个人建筑师、个人婚礼策划师……所有这些角色，最终都能在图像层里被整合进来。

主持人： 还有一件事我觉得特别惊人。比如我每次出新书，都得换社交媒体头图。于是我就直接说，找到我的书封，然后帮我做一个适合 X、Facebook 这些平台尺寸的社交媒体头图。我心想，行吧，看看它会怎样。结果第一张就对了，尺寸对、比例对，所有东西都对。

Kenji： 这其实是我们一开始就特别在训练里强调的能力：只要你指定任何纵横比，它都应该能做得好。现在你确实可以更直接地说出你想要的最终结果。像你刚才那个例子，本质上是“我要宣传素材，但我没有特别明确的创意方案”。模型却能自己去做必要的“研究”，然后按适合你的风格和比例把结果给出来。这一点特别强。而且我们已经在很多行业里看到这种用法：作者会拿它做宣传图；房产经纪人会拿它给房源做列表图、做软装 staging；YouTube 创作者会拿它做缩略图和宣传内容；顶级艺术家也在想怎么用它更好地和粉丝连接。对于各种视觉和创意行业来说，ImageGen 正在变成职业工具箱里的一个捷径。我觉得未来它一定会成为所有人日常工作流的一部分。

主持人： 这确实让我第一次有一种感觉：凡是我能合理想到的东西，它基本都能做得不错。

Adele： 我们觉得，这就是图像生成的新范式。

主持人： 就像你们在发布视频里说的，如果 DALL·E 是石器时代，那 ImageGen 2.0 就是文艺复兴。

Adele： 我觉得这个说法特别准确。因为它不只是艺术性和审美上更强，还把科学、艺术、建筑这些东西整合进了同一张图里。这种构图能力和知识能力，让输出结果更可信、更有力量，也打开了更多用例。另外，ImageGen 和 Codex 的结合，也是我们特别看重的一个交叉点。现在已经有很多人先用 ImageGen 做网站设计稿、做 App 概念图。而当你把一个强审美模型，也就是 ImageGen，和强代码能力结合起来时，你就能几乎从零开始，一步到位做出非常惊艳的应用。

主持人： 对，我就在 Codex 里这么试过。我把自己的网站丢进去，让它先用 ImageGen 帮我做几个不同方向的概念图，还是那种 contact sheet 形式，一次给我四张。然后我说，右上角那张不错，帮我把它真的做出来。结果我就看着 Codex 把它一步步实现了。这种感觉已经像魔法了。而且这已经被整合到产品里了。比如你在 Codex 里说，我特别喜欢乌鸦，能不能给我做个乌鸦角色。它就会自动调起 ImageGen，不断迭代，把精灵图做出来。

Adele： 精灵图现在也很火。游戏设计那边也是，大家特别喜欢用 ImageGen 去构建新的世界。

主持人： 你们有没有什么做精灵图的小技巧？我之前也试过在内部做 GIF 之类的。

Adele： 我觉得如果你用 thinking mode 或 Codex，先让它生成一个初始精灵，通常效果就已经很好。接着你只需要说：把剩下的也补出来。这一代模型在多张图之间保持一致性的能力，真的非常强。我们已经看到很多人拿它去做 10 页漫画，保证人物和剧情连贯；也有人做多页演示文稿。角色一致性和审美一致性，是这代模型非常独特的地方。

主持人： 对，这也是以前很多图像工作流最“土法炼钢”的地方。你得自己摸索各种很别扭的流程。但现在我可以先做出一个角色，再让它生成一整张角色设定表，不同动作、不同姿态全出来；然后把这些继续喂回去，再说，现在让他做这个、做那个、再做那个。很多时候，我们需要的当然是更聪明的模型，但上下文长度的提升对 ChatGPT 很重要、对编程也很重要；到了图像模型这里，它就体现为：能更稳定地引用你给过的参考。这真的非常强。

Adele： 是的，我们还在继续提升这件事。它今天还不算完美。我们其实一直在尝试建立一层“视觉创作层”，因为每个人都有自己的审美、风格和偏好。我们希望把这些东西尽量注入我们正在做的产品里，让人们更快、更容易地得到自己真正想要的结果。

9. 提示词建议

主持人： 最后给大家一点 prompt 建议吧。

Adele： 我会建议大家试试 ImageGen 的 thinking 模式。如果你切到 thinking 或 pro 模型，就能用到一个更强版本的 ImageGen。在那个体验里，模型可以搜索网页、分析文件，还能在底层调用工具，所以最后出来的图，在质量和构图上都会更好。而我对这类模式的 prompt 建议是：尽量开放一点。模型会自己去探索、推理、补信息，找到真正相关的内容。另外，给它一个明确的审美方向也特别有帮助。把需求锚定到某种风格上，通常会带来非常好的结果。

Kenji： 我的建议是，尽量把你喜欢的风格说具体。比如我自己就喜欢极简信息图。有时候模型会把内容做得稍微有点密，我个人就更喜欢特别干净、特别简洁的视觉。所以我会明确告诉它，我要非常 clean 的效果。

主持人： Adele、Kenji，感谢你们今天来聊。