
OpenAI 最新一期博客这一期,主持人 Andrew Mayne 与 OpenAI 研究员 Kenji Hata、产品负责人 Adele Li 聊了聊 Images 2.0。Images 2.0不只是“画得更好了”,而是图像生成正在从一个“创意玩具”变成“生产力基础设施”,并且下一步会进化成能理解你、帮你干活的“创作型智能体”。这场对话的核心内容是:图像生成正在从“创意玩具”变成“生产力基础设施”,下一步会进化成能理解你、帮你干活的“创作型智能体”。文字渲染的突破打开了专业场景——以前的模型做文字像乱码,现在能生成整页清晰排版和多语言信息图,OpenAI内部超过一半的PPT配图已用ImageGen生成。“世界知识”被注入模型后,一个生物学教授测试发现它生成的研究生级教科书插图“完全准确”。用户端最火的趋势反而是用这个强大模型生成“Microsoft Paint风格”的潦草画——Adele说,“要把东西做得不完美,需要很高的智能。”而ImageGen与Codex打通后,用户可以先画界面概念图,再让Codex直接实现成App——这是从“生成图像”到“把图像变成产品”的跃迁。以下是本期博客完整内容的编译。
1. 从投资圈跳进OpenAI做图像,产品经理的“跨界”逻辑
主持人: Adele,先聊聊你自己。你是怎么成为 OpenAI 产品经理的?
Adele: 我两年多前加入 OpenAI。来这里之前,我整个职业生涯都在做投资。我先是在私募股权领域工作,后来在 Redpoint Ventures 做了三年,主要投 AI 和软件公司。我刚加入 OpenAI 时,做的其实完全不是现在这个方向,当时我在想的是,怎么把数据和算力基础设施搭起来。后来慢慢转到了产品侧,过去六个月,我一直在做 ImageGen。
主持人: 挺有意思的。你从一个角色切到另一个角色,最后走到了这里。某种程度上,这也说明一个人可以在不同位置上发挥价值。
Adele: 完全同意。我觉得产品经理的工作,本质上就是哪里需要,就去做哪里。尤其在 ImageGen 这个项目上,我觉得自己确实调动了很多不同的能力:既要和 Kenji 这样的研究员合作,也要想清楚今天市场的空白到底在哪,我们要抓住的机会是什么。这已经不是一年前我们第一次发布 ImageGen 1.0 时的市场了。今天的竞争格局完全不同,市面上已经有很多图像生成产品;与此同时,ChatGPT 自己也已经变成了一个完全不一样的产品和公司。所以,重新思考 ImageGen 的演进方向,以及它在 ChatGPT 里的角色,对我来说特别有意思。
主持人: Kenji,那你是怎么做上图像的?
Kenji: 其实我刚加入 OpenAI 也是差不多两年前。一开始我在做一个挺随机的音频项目,那是我的第一个项目。后来我慢慢开始帮团队推进 ImageGen 1.0 上线前的工作,做着做着就越做越多,最后就全职投入这个项目了。
2. Images 2.0 上线后,发生了什么
主持人: 现在这个模型的市场反馈怎么样?
Adele: 模型上线两周以来,使用量已经涨了 50% 以上。现在 ChatGPT 每周会生成超过 15 亿张图片。我们还看到很多全球性的病毒式趋势——亚洲那边,颜色分析和贴纸很火;美国这边,蜡笔风、涂鸦风在爆。与此同时,也有很多用户在探索一些我们原本没预料到的新用法。我觉得这既说明了模型的能力范围真的很广,也说明用户几乎能立刻通过“看图”感知到这次模型进步有多大。用户给我们的反馈里,有一种非常直观的视觉判断:他们会说,这是他们见过保真度最高、质量最高的静态图像模型。这一点真的很让人兴奋。
主持人: 这次感觉像一次特别大的变化,甚至大到不太像“Images 2.0”,更像一种新范式,因为能力的提升实在太夸张了。它是怎么做到的?
Adele: 一开始做这个项目时,我们就坐下来认真讨论过:我们到底想实现什么级别的能力跃迁,想把哪些用例真正做出来。我们相信,图像生成能做的事情,远比今天已经做到的要多得多。你今天能看到的几乎所有视觉内容,本质上都可以被压缩成图像生成的输出形态。所以这次 2.0 的目标,就是沿着这条路线把多个关键维度一起往上推。
第一是文字渲染,现在图上的文字清晰度高了很多,语言和单词本身也终于真正“说得通”了。第二是多语言,我们非常明确地在推进模型对多语言的支持,现在已经能看到亚洲和欧洲用户对这些改进的反应特别明显。第三是照片级真实感,我们从上一代模型收到很多反馈,说图片看起来不够真实,或者会把人的脸、身体改得不对。所以这次我们的一个核心目标,就是怎么让图像更像“你自己”。
再加上世界知识。很多你以为模型知道的东西,它确实知道,因为它把关于这个世界的知识吸收进去了,并且能把这些知识以视觉形式表达出来。这些能力叠加起来,才构成了今天这个最前沿的图像生成模型。我们认为它是当前市场上审美表现最强的模型,也代表着图像生成进入了一个全新的阶段。这本身也是 AI 整体进步中非常重要的一部分。我们也会持续听用户反馈,包括社交媒体上的声音,我们会把这些问题都记下来,在下一轮迭代里尽量缓解,或者直接修掉。
3. 图像生成,开始从好玩走向生产力
主持人: 你们现在看到的用例,主要有哪些?
Kenji: 有一类用例,研究团队内部也特别关注,就是信息图和图文内容。图像里的文字能力现在强了太多,所以生产力场景一下就被打开了。从研究的角度看,过去大家总觉得图像生成偏娱乐、偏玩具,不太适合严肃工作。但现在我们确实看到了它一步一步进入生产力场景,几乎任何你能想到的用途,都开始变得可行。
主持人: 你刚说到文字。我记得早期模型做字的时候——无意冒犯黑猩猩——拼出来的“OpenAI”看上去就像是黑猩猩打出来的。现在我看它已经能生成整页文字、很细的排版,这个提升非常明显。我知道模型更聪明之后,变量绑定、对象之间关系理解都会变强,但这次依然是特别大的跨越。
Kenji: 是的,但这又不是完全意外的跳变,更像一条持续向上的曲线。如果你去看从 DALL·E 3 到 GPT Image 1 的变化,再到 1.5,再到现在,其实每一步都很清楚。比如我们内部会做一个测试:给模型一张随机物体网格图的任务。DALL·E 3 大概能做对 5 到 8 个;Images 1 大概能做到 16 个;1.5 能稳定到 25 到 36 个;现在我觉得已经能做到 100 个以上。我们内部有时会让 GPT 先随机列出 100 个物体,然后把这个列表发给图像模型,看它到底能对多少,通常现在已经接近 100 个都能做对。所以我觉得这不是突然发生的,而是稳定持续的增长。
主持人: 我以前在 Ada、Babbage、Curie 那些很早期模型时代,也会用类似测试,比如“列出 100 本科幻小说”,结果到 22 本左右就开始重复,说明模型已经撑不住了。你们现在还做出了 360 度全景图。这是怎么来的?
Adele: 这其实就是模型能力自然涌现出来的结果。核心在于,它现在能很好地处理各种纵横比。我们发现用户开始生成特别长的全景图,也有人做很瘦很长的书签图。后来我们意识到,这个模型不仅能适配这种超宽比例,还能直接生成 360 风格的图像。而且这些图放进 360 场景里看,效果特别有意思。所以我们后来就把它正式做成了产品功能,现在 ChatGPT 网页端和移动端都能用。
主持人: 我做的第一张,就是“狗狗打牌”的 360 版。你站在里面,就像自己也是桌边的一只狗,四周都能看。这种体验我以前完全没想到,但真的很好玩。
Adele: 是啊,用户探索出来的新玩法,常常比我们自己最初设想的更远。我们在设计模型时,其实非常认真地研究过:人们到底希望图像生成做到什么。这个需求一直都在,只是以前很多方向模型还做不好。文字渲染就是我们特别想补上的一项,多语言也是。还有一点,是这代模型对世界的理解整体提升了很多。这意味着,大家现在会开始在网上分享很多以前压根没法做、或者我们没想到有人会做的例子。这个模型对不同审美语境的理解能力也变强了:它既能做一个梗图,也能做适合五岁孩子看的图,还能做专业咨询公司的演示材料。这种输出空间的扩张,真的很惊人。
4. 用户追求粗糙,模型追求真实
主持人: 最近还有个挺有意思的趋势:大家会把流行图片或人像,故意让模型生成那种很糙、很像 Microsoft Paint 画出来的版本。你们想到过这么强的模型会被用来做这种故意“难看”的东西吗?
Adele: 这挺有意思的。因为要把东西做得“不完美”,本身其实需要很高的智能。我经常这么跟别人说。最近网上这些病毒式趋势里,一个很明显的主题就是:真实性、不完美感、怀旧感。Microsoft Paint 风、蜡笔风,以及各种类似风格,都是这个倾向的表现。消费者其实是在用这种方式表达:他们希望和 AI 的互动是带点真实感、带点不完美的。他们想让 AI 帮自己变得更好看,但同时也希望能保留自己更好玩、更傻气、更松弛的一面。我觉得,通过 AI 去做自我表达,会是一个特别重要的方向。某种意义上,这也很符合我们公司的使命:让人更容易学习和获取智能,同时也能表达一个原本不那么容易表达出来的自己。
主持人: Kenji,在训练过程中,有没有哪个瞬间让你觉得:行,这次可以上线了?
Kenji: 有。训练过程中我们会不断拿 checkpoint 出来采样,看效果到底怎么样。有一次我们采了一张图,然后又拿 ImageGen 1 的结果做对比,我们看完就说:好,这个已经比 1 强了。就是那种一眼就知道的差距。
主持人: 我记得早期 DALL·E 版本迭代的时候,一开始画面里总带着那种雾气、触手一样奇奇怪怪的东西。我当时问研究员,这个毛病会不会消失,对方说,大概再跑两轮就差不多了。后来还真是,一下子画面就清楚了。再往前,如果你玩过 GAN,那时候很多图都得眯着眼睛猜“这大概是一辆皮卡吧”。所以这种“突然看起来就完全不一样了”的时刻,总是很震撼。
Kenji: 是,真的特别明显。你拿一个早期 checkpoint 的图,再拿一张 ImageGen 1 的图放一起看,差别大到几乎不需要讨论。我都忘了当时具体是哪张图了,可能只是“一个站在海边眺望的女人”之类的非常普通的图。但我们看完就知道:没问题了。
主持人: 这次最大的跨越,就是照片级真实感。之前那种图更像光鲜亮丽、被修过度的杂志封面;现在更像一张真正拍出来的照片。那除了堆更多算力之外,它到底是怎么发生的?为什么它既变强了,又没有慢到生成一张图要等一个小时?我还记得 DALL·E 早期,真的得等很久,现在它已经能在 ChatGPT 里更快地产出结果了。它怎么做到既更聪明又差不多同样快?
Kenji: 我觉得每一代发布,我们都会学到很多东西。从 1 到 1.5,再到 2,每一步都积累了不少经验。这些经验会被带进下一代。比如速度这个问题,我们就会想,能不能让模型在更少 token 的情况下,也产出很好的图。这次我们确实做了很多工作,让它用更少 token 也能出高质量图像。另外,这一代的后训练也非常有意思。我们不只是要让模型理解世界知识,知道科学概念、数学概念在图像里该怎么呈现;还要思考,什么样的审美才会让用户真正觉得好看。什么叫美?怎样才算真实?这些问题,都是我们在后训练阶段必须正面处理的。因为对我们来说,这一代模型必须是当前最强的审美模型。也就是说,不管你要的是专业输出,还是个人化表达,它都得有更强的创造力。而这种覆盖多类用例的训练范围,本身就让这次训练变得非常有挑战。
5. 内部都拿什么测图像模型?
主持人: 你们有没有自己特别喜欢的 benchmark?比如每次都会想拿某张图试试看。
Adele: 我有一个评测,叫“me, me, me eval”。里面有 100 张我自己、朋友、家人的照片,我会把每个人都放进各种搞怪场景里。我几乎给每个人都做过卡片或生日图。这个评测特别好的一点在于:你最熟悉的,永远是你身边人的脸。而且你确实会想拿模型做一些有趣、跟现实有关的内容。所以从产品经理角度,我测的不只是模型原始能力强不强,也会看 ChatGPT 在这个上下文里,到底懂不懂我想要什么。比如 ChatGPT 记得我有兄弟,也记得我爸妈,以及他们喜欢什么。那么模型能不能在关键时刻,把这些个性化信息准确放进图片里?这些都是我会测试的东西。你呢?
Kenji: 除了前面说的网格测试,我用得最多的大概就是照片级真实感相关的测试。有一阵子我和 Divya 很关注这个方向,一直在猛推。我记得 Divya 最喜欢的测试图是“一个女人手里拿着一壶橙汁”。不知道你有没有见过,网上这类图特别多。
主持人: 我感觉研究员们其实都有一套比他们嘴上说的更固定的标准图集。
Kenji: 是的,比如那种标准题:一个人左手写字、右手戴表,旁边有个钟显示某个时间。我觉得图像模型在 1 或 1.5 时期的一个大跨越,是“半杯红酒”的测试。以前酒杯边缘经常会折掉、变形。早期虽然也能通过特别细的 prompt 勉强做出来,比如你得明确写“红色液体装在这个容器里”,但这代模型就自然多了。
主持人: 我还试过一个特别好玩的:有人说它画不了像素级的 pixel art,我一听这种话就会想,行,那我们试试。后来我给它一个 64×64 的网格,说就在这个网格里画像素风,结果它真的做出来了。这就很能说明它的可提示性已经强到很夸张的程度。你们是怎么为这种能力做准备的?还是说,这本身也是自然长出来的?
Adele: 很多人来用 ImageGen 时,prompt 都特别模糊,比如“让它更好一点”“让我更好看一点”“让我更可爱一点”。这些指令其实都很虚。所以模型和整个产品框架的任务,就是把这些模糊意图尽量还原成用户真正想要的东西。而这其实就是我们长期训练出来的一种“模型人格”。说实话,这也会带来很多出人意料的结果,而这种惊喜本身就是 ImageGen 好玩的地方。
6. 提示词不是公式,而是审美与判断
主持人: 我一直觉得,图像生成里的提示方式,大概已经出现了两种路线。以前 DALL·E 时代,我还以为自己是“提示词工程师”,应该会很擅长这个。我写个“太空里的浣熊”,就觉得自己挺厉害。但后来我看到一些真正来自艺术行业的人——他们不是所谓的 prompt engineer,他们本来就是那个领域里的人——他们写出来的语言完全不一样,结果也好得多。现在看,这个规律好像还是成立的。
Adele: 绝对成立。我们在开发这个模型时,和一群艺术家合作得非常密切。艺术家、设计师、营销人员,这些职业给了我们很多启发,因为他们理解自己专业的方式本来就不一样。对我们来说,一个很重要的方向,就是把这些职业里的灵感和最佳实践,尽量蒸馏进模型交互方式里。这是我们刻意在做的事情。还有一个我觉得特别有效的技巧,就是给模型上传参考图或上下文。模型现在特别擅长抓住这些材料里的“精神”,并把它转译到最终输出里。
主持人: 但这件事也挺有意思。很多人会担心,按钮越来越简单,点一下就能得到一张漂亮图,是不是人就不需要投入了。可现实恰恰相反。模型越强,门槛确实越低;但真正投入精力的人,能得到的结果反而更惊艳。而且看起来,如果你本身就有艺术训练,你反而会拥有更高的控制力。因为模型现在更能理解你在说什么,比如景深之类的概念,或者你想实现的其他视觉语言。我以前也见过一些艺术家说:我把自己的原作丢进去,模型给了我一些变体,而我知道哪一版是对的。那种感觉特别像一个真正的创作放大器。
Adele: 是的。如果你本身有创作方向感、有审美、有判断,把这些带给模型,就是把它能力继续往上推的最好方式。我特别喜欢这一代模型的一点,就是它把每个人的创作出口都拓宽了。你现在想做多种风格、多种形式、多种变体,比以前任何时候都更容易。而且它对不同语境的理解切换特别自然:上一张还在做建筑图解,下一张就能进入儿童绘本的审美。它能在这些不同维度之间顺滑切换,这点特别强。
7. 为什么教育和研究圈会兴奋
主持人: 它现在做信息图和示意图已经非常强了。研究和教育领域的人,给了你们什么反馈?
Kenji: 我们内部有一个 alpha 测试频道,专门拿来试各种模型。里面还有一个子频道,专门面向教育工作者,从小学一直到研究生层级都有。我见过一个特别酷的例子:一位生物学教授上传了几页研究生级别教材里的图示,讲的是一些我完全看不懂的内容,但他说模型生成得完全准确。我觉得这个模型最强的一点之一,就是它能把非常复杂的主题压缩成一张很容易理解的图。我们已经看到学生和老师都在用它学习概念、做学习指南,也在用它生成个性化内容。个性化学习是我们特别关注的大方向,而 ImageGen 让老师能够做出每个孩子都能用自己的语言、自己的偏好去理解的内容。这是我们非常兴奋的事情。我们也在想,怎么把更多 ImageGen 的能力融入整个 ChatGPT 的学习体验里。以后人们学概念时,可能本身就是通过 ImageGen 来学的。
主持人: 我记得我上学那会儿,在多媒体还没完全普及之前,教室里那种解释知识点的大海报特别常见。ImageGen 现在让我重新意识到信息图有多强大,因为你可以把很多注意力压缩进一张图里。人可以停下来,一直看、一直理解,而且还能塞进去更多细节。还有一个我看到的特别明显的变化是:OpenAI 内部的演示文稿里,现在有超过一半的幻灯片是用 ImageGen 做出来的。
Adele: 对。图像开始渗透进日常沟通,本身就是一件很强大的事。因为你在解释概念、表达想法的时候,视觉化会让事情变得更容易。而信息图、文字渲染能力、以及文字在页面上的整体构图,这些叠加起来,正是这个模型很强的地方。模型不仅知道该说什么,还知道怎么把它呈现出来,这是一种超能力。我们接下来也很期待继续往前走:怎么把版式做得更好、输出形态做得更多样、以及怎么让它在产品里变得可编辑。这些都是我们特别兴奋的方向。
8. OpenAI的下一步棋:创意代理+编码能力
主持人: 你怎么看接下来的发展?因为每次我跟 OpenAI 的人聊他们在做什么,对方通常都会说:这个已经不错了,但……
Adele: 我觉得我们现在还处在特别早期的阶段。人们到底想把这个模型推到哪些用法上,其实还远远没有被探索完。所以我们最兴奋的下一步,是把 ImageGen 往“创意代理”推进。理想状态下,它会成为一个能和你并肩工作的创意助手,理解你的工作方式、理解你的偏好、理解你最后到底想得到什么,然后围绕这些去搭建产品和模型体系。它应该像一个个人室内设计师、个人建筑师、个人婚礼策划师……所有这些角色,最终都能在图像层里被整合进来。
主持人: 还有一件事我觉得特别惊人。比如我每次出新书,都得换社交媒体头图。于是我就直接说,找到我的书封,然后帮我做一个适合 X、Facebook 这些平台尺寸的社交媒体头图。我心想,行吧,看看它会怎样。结果第一张就对了,尺寸对、比例对,所有东西都对。
Kenji: 这其实是我们一开始就特别在训练里强调的能力:只要你指定任何纵横比,它都应该能做得好。现在你确实可以更直接地说出你想要的最终结果。像你刚才那个例子,本质上是“我要宣传素材,但我没有特别明确的创意方案”。模型却能自己去做必要的“研究”,然后按适合你的风格和比例把结果给出来。这一点特别强。而且我们已经在很多行业里看到这种用法:作者会拿它做宣传图;房产经纪人会拿它给房源做列表图、做软装 staging;YouTube 创作者会拿它做缩略图和宣传内容;顶级艺术家也在想怎么用它更好地和粉丝连接。对于各种视觉和创意行业来说,ImageGen 正在变成职业工具箱里的一个捷径。我觉得未来它一定会成为所有人日常工作流的一部分。
主持人: 这确实让我第一次有一种感觉:凡是我能合理想到的东西,它基本都能做得不错。
Adele: 我们觉得,这就是图像生成的新范式。
主持人: 就像你们在发布视频里说的,如果 DALL·E 是石器时代,那 ImageGen 2.0 就是文艺复兴。
Adele: 我觉得这个说法特别准确。因为它不只是艺术性和审美上更强,还把科学、艺术、建筑这些东西整合进了同一张图里。这种构图能力和知识能力,让输出结果更可信、更有力量,也打开了更多用例。另外,ImageGen 和 Codex 的结合,也是我们特别看重的一个交叉点。现在已经有很多人先用 ImageGen 做网站设计稿、做 App 概念图。而当你把一个强审美模型,也就是 ImageGen,和强代码能力结合起来时,你就能几乎从零开始,一步到位做出非常惊艳的应用。
主持人: 对,我就在 Codex 里这么试过。我把自己的网站丢进去,让它先用 ImageGen 帮我做几个不同方向的概念图,还是那种 contact sheet 形式,一次给我四张。然后我说,右上角那张不错,帮我把它真的做出来。结果我就看着 Codex 把它一步步实现了。这种感觉已经像魔法了。而且这已经被整合到产品里了。比如你在 Codex 里说,我特别喜欢乌鸦,能不能给我做个乌鸦角色。它就会自动调起 ImageGen,不断迭代,把精灵图做出来。
Adele: 精灵图现在也很火。游戏设计那边也是,大家特别喜欢用 ImageGen 去构建新的世界。
主持人: 你们有没有什么做精灵图的小技巧?我之前也试过在内部做 GIF 之类的。
Adele: 我觉得如果你用 thinking mode 或 Codex,先让它生成一个初始精灵,通常效果就已经很好。接着你只需要说:把剩下的也补出来。这一代模型在多张图之间保持一致性的能力,真的非常强。我们已经看到很多人拿它去做 10 页漫画,保证人物和剧情连贯;也有人做多页演示文稿。角色一致性和审美一致性,是这代模型非常独特的地方。
主持人: 对,这也是以前很多图像工作流最“土法炼钢”的地方。你得自己摸索各种很别扭的流程。但现在我可以先做出一个角色,再让它生成一整张角色设定表,不同动作、不同姿态全出来;然后把这些继续喂回去,再说,现在让他做这个、做那个、再做那个。很多时候,我们需要的当然是更聪明的模型,但上下文长度的提升对 ChatGPT 很重要、对编程也很重要;到了图像模型这里,它就体现为:能更稳定地引用你给过的参考。这真的非常强。
Adele: 是的,我们还在继续提升这件事。它今天还不算完美。我们其实一直在尝试建立一层“视觉创作层”,因为每个人都有自己的审美、风格和偏好。我们希望把这些东西尽量注入我们正在做的产品里,让人们更快、更容易地得到自己真正想要的结果。
9. 提示词建议
主持人: 最后给大家一点 prompt 建议吧。
Adele: 我会建议大家试试 ImageGen 的 thinking 模式。如果你切到 thinking 或 pro 模型,就能用到一个更强版本的 ImageGen。在那个体验里,模型可以搜索网页、分析文件,还能在底层调用工具,所以最后出来的图,在质量和构图上都会更好。而我对这类模式的 prompt 建议是:尽量开放一点。模型会自己去探索、推理、补信息,找到真正相关的内容。另外,给它一个明确的审美方向也特别有帮助。把需求锚定到某种风格上,通常会带来非常好的结果。
Kenji: 我的建议是,尽量把你喜欢的风格说具体。比如我自己就喜欢极简信息图。有时候模型会把内容做得稍微有点密,我个人就更喜欢特别干净、特别简洁的视觉。所以我会明确告诉它,我要非常 clean 的效果。
主持人: Adele、Kenji,感谢你们今天来聊。




0 条评论
请「登录」后评论