品玩

科技创新者的每日必读

打开APP
关闭

李飞飞在YC创业学院:从ImageNet到空间智能,AGI的关键转折

AGI的“最后一块拼图”——空间智能的技术壁垒

大模型机动组

发布于 7月2日

在 AI 飞速进展中,空间智能被视为通向 AGI 的一块关键拼图。李飞飞博士,作为计算机视觉领域的先驱,正带领团队挑战这一前沿课题——如何让机器理解、生成并在三维空间中进行互动。

从 ImageNet 到 World Labs ,李飞飞的学术与创业之路始终紧跟时代步伐,跨越一个又一个技术瓶颈。而今天,她将目光聚焦在更为复杂的空间智能上,探索如何突破视觉智能的二维限制,走向理解和重建三维世界的未来。

在YC创业学院峰会现场,YC 合伙人 Diana Hu 与李飞飞展开一场炉边对话,李飞飞深刻剖析了空间智能与语言理解之间的巨大差异,指出为什么三维世界建模对于AI的演进至关重要。这不仅是AI技术的一次飞跃,更是智能体与人类世界更深层次连接的关键一步。

访谈内容原汁原味呈现于下:

李飞飞:我的整个职业生涯都在攻克那些极其困难、近乎妄想的问题,对我而言,没有空间智能的AGI是不完整的,我想解决这个问题,我就是热爱当企业家,忘掉你过去的成就,忘记别人对你的看法。埋头苦干,努力建设,那是我的舒适区。

Diana Hu:我特别兴奋能请到李飞飞博士,她在 AI 领域有非常长的职业生涯,我相信很多人都认识她,她被称为 AI 教母。你在2009年,创建的首批项目之一是 ImageNet(图像数据库)。也就是16年前,天呐。

李飞飞:别提醒我这事了(笑)。

Diana Hu:现在该项目的论文引用量已超8万次,并且真正开启了 AI 的一个关键支柱,也就是数据问题。请告诉我们这个项目是如何产生的,那在当时可是极具开创性的工作。

李飞飞:首先,Diana、Gary,还有在场的各位,感谢你们邀请我来。我非常激动能来到这里,因为我感觉自己就像是你们中的一员。我现在也是一名企业家,刚创办了一家小公司,所以很高兴能来这儿。

我们差不多18年前就有了创建 ImageNet 的想法,当时我是普林斯顿大学的一年级助理教授,那时 AI 和机器学习的世界和现在大不相同,数据少之又少,至少在计算机视觉领域,算法根本行不通,也没有相关产业。就公众而言,“AI”这个词都还不存在。

但我们仍然有一群人,从 AI 的先驱开始,比如约翰·麦卡锡,再到像杰弗里·辛顿这样的人物,一直怀揣着 AI 之梦。我们真的想让机器会思考、能工作,怀揣着这个梦想,我个人的梦想是让机器能“看”,因为视觉是智能的基石。视觉智能不只是简单的感知,而是真正理解世界并能在其中有所作为。

所以我痴迷于让机器“看”的问题,当我痴迷于开发机器学习算法时,那时我们尝试过神经网络,但没奏效。我们转而使用贝叶斯网络、支持向量机等其他方法。

但有个问题一直困扰着我,那就是泛化问题。如果你从事机器学习领域的工作,就必须明白泛化是机器学习的核心数学基础和目标。为了让这些算法具有泛化能力,就需要大量数据,当时在计算机视觉领域根本没人有数据。我是第一代开始涉足数据研究的研究生,因为我是第一代见证庞大的物联网时代到来的研究生。

时光快进到2007年左右,我和我的学生决定大胆一搏。我们认定机器学习领域需要一场范式转变,而这场转变必须由数据驱动的方法引领,但当时没有数据。于是我们想,那就去互联网上下载十亿张图片吧,这是我们能从网上获取的最大数据量了,然后创建一个涵盖整个世界的视觉分类体系,我们用这些数据来训练和评估机器学习算法,这就是ImageNet 被构思并实现的缘由。

Diana Hu:过了好一段时间,才出现有前景的算法,直到2012年 AlexNet 问世,那才是迈向 AI 的第二步,也就是要具备足够的计算能力并投入大量的算力和算法。给我们分享下你是从什么时候开始意识到,你用数据为其奠定了基础,然后社区开始为AI找出更多东西的那个时刻是什么?李飞飞:在2009年,我们发表了一篇非常小的 CVPR 海报。从2009年到2012年这三年间,AlexNet 出现后,我们坚信数据将推动 AI 发展,但对于这种方法是否可行,我们几乎没有得到什么有效的反馈。

所以我们采取了一些措施,其一,从一开始我们就认为要将相关内容开源给整个研究界,让大家一起来研究。其二,我们发起了一场挑战赛,因为我们希望全世界最聪明的学生和研究人员都来解决这个问题,这就是我们所说的 ImageNet 挑战赛。每年我们都会发布一个测试数据集,整个ImageNet数据集可用于训练,但我们会发布测试集,公开邀请所有人参与,最初几年主要是在确定基准,当时的识别错误率达到了30%,这不是零误差,也不是完全随机的结果,但也不算太好。

到了2012年,也就是挑战赛的第三年,我在自己出版的一本书里写过这件事,我至今记得,大概在夏末的时候,我们把 ImageNet 挑战赛的所有结果放到服务器上运行。有天很晚了,我在家收到了研究生发来的消息,他说我们得到了一个非常突出的结果,让我看看。我们仔细研究后发现,这是一个卷积神经网络的结果,当时它还不叫AlexNet,杰弗里·辛顿团队把它叫做“Supervision”,这是一个很巧妙的双关语,既和“超级”有关,也和“监督学习”有关,我们查看了“Supervision”的成果,卷积神经网络是一种早在20世纪80年代就已发表的旧算法,只是在算法上做了一些调整,但一开始看到有这么大的进步,我们还是很惊讶。

当然,之后的历史大家都知道了,那一年我们在意大利佛罗伦萨举行的国际计算机视觉大会(ICCV)的 ImageNet 挑战赛研讨会上展示了这个成果。亚历克斯·克里彻夫斯基、杨立昆也来了。现在大家都把这一刻称为 ImageNet 挑战赛中 AlexNet 诞生的时刻。我想说的是,这不仅仅是卷积神经网络的功劳,也是亚历克斯和他的团队首次将两块GPU结合起来用于深度学习计算。所以这真的是数据、GPU和神经网络首次结合的时刻。

Diana Hu:随着计算机视觉领域智能技术的不断发展,ImageNet 实际上是解决物体识别概念的关键开端。接着 AI 发展到了能够处理场景识别的阶段,因为你和你的学生,比如安德里亚·卡帕西做了很多工作,让计算机能够描述场景,能跟我们讲讲从物体识别到场景识别的转变吗?

李飞飞:ImageNet 解决的问题是,给你一张图片,你能识别出里面的物体,比如有一只猫、一把椅子等等,这是视觉识别中的一个基本问题。

其实从读研究生进入 AI 领域开始,我就有一个梦想。我当时觉得这是一个要花上一百年才能实现的梦想,那就是对世界进行叙事描述。当人类睁开眼睛时,想象下你在这个房间里看到的不只是人和椅子,实际上看到的是一个会议室,里面有屏幕、舞台、人群、摄像头等等,你能够描述整个场景。这是人类视觉智能的基础能力,在我们的日常生活中非常重要。

所以我真的以为这个问题会投入一辈子的时间。说实话,我研究生毕业的时候就告诉自己,如果此生能创造出一种算法来描述场景,那就算成功了,我当时就是这么规划自己的职业生涯的。ImageNet 和 AlexNet 诞生,深度学习开始兴起。后来安德里亚和贾斯汀·约翰逊加入了我的实验室,我们开始看到自然语言和视觉开始融合的迹象。安德里亚和我提出了图像描述或场景叙事的问题,大约在2015年,安德里亚和我发表了一系列论文,这些论文和其他几篇同期论文一起,首次让计算机能够为图像添加描述。我几乎都不知道自己接下来该做什么了,这可是我一生的目标!那一刻对我们俩来说都太不可思议了。

去年我做了一个TED演讲,我还引用了安德里亚几年前在完成图像描述工作时发的一条推文,那差不多是他的博士论文研究内容。我还跟他开玩笑说:“安德里亚,我们反过来怎么样?根据一句话生成一张图片。”当然,他知道我在开玩笑,他说:“我可不干。”当时这个世界还没准备好。

但现在技术发展,我们都知道了生成式 AI ,现在我们可以根据一句话生成漂亮的图片,这段经历告诉我们, AI 取得了惊人的发展。就我个人而言,我觉得自己是世界上最幸运的人,因为我的整个职业生涯始于 AI 寒冬的末期,也就是 AI 开始腾飞的时候,所以我真的非常幸运,也有点自豪。

Diana Hu:我觉得最厉害的是,你不仅实现了描述场景的毕生梦想,甚至还能用扩散模型生成场景。而且你还有更大的企图心,因为计算机技术的发展轨迹从物体识别到场景识别,现在又到了“世界”这个概念。你还从学术界的教授转型成为了 World Labs 的创始人兼首席执行官。能告诉我们理解“世界”为什么比理解物体更难吗?

李飞飞:这确实有点不可思议,很难用几句话概括过去五六年的事。对我来说,我们正处在这项技术进步的一个重大历史时刻,作为一名计算机视觉科学家,我们见证了计算机视觉领域的惊人发展,从 ImageNet 到图像描述,再到使用扩散技术进行图像生成。与此同时,还有另一个令人兴奋的发展方向,就是自然语言处理,也就是LLM。2022年11月,ChatGPT开启了真正可用的生成式模型的大门,这些模型基本上能够通过图灵测试等等。

这对我这样的“老人”来说也很有启发,让我大胆地思考接下来会发生什么。作为一名计算机视觉科学家,我有个习惯,我很多灵感都来自进化生物学和脑科学。在职业生涯的很多时候,我都在寻找下一个亟待解决的关键问题,比如进化或大脑发育给了我们什么启示?有一点很值得注意和思考。从进化的角度来看,人类语言的发展,往多了算,大约用了3亿到5亿年,不到100万年。在这么长的进化时间里,人类发展出了语言,可以说,人类是唯一拥有复杂语言的动物。虽然我们可以讨论动物的交流方式,但从作为一种交流、推理和抽象工具的整体语言概念来看,只有人类拥有这一过程甚至不到50万年。

回到视觉能力,想想理解三维世界、在三维世界中做决策、在三维世界中导航、与三维世界交互、理解三维世界、描述三维世界的能力,进化用了5.4亿年才发展出这种能力。5.4亿年前,第一只三叶虫在水下进化出了视觉。从那以后,视觉引发了一场进化军备竞赛,在有视觉之前的5亿年里,动物都很简单,但在有了视觉之后的5.4亿年里,动物的智力开始不断提升。

所以对我来说,解决空间智能问题,即理解、生成、推理和在三维世界中行动的能力,是 AI 的一个基本问题。在我看来,没有空间智能,AGI 就不完整。想解决这个问题,需要创建超越平面像素、超越语言的世界模型,能够真正捕捉世界的三维结构和空间智能的世界模型。

我这辈子最幸运的是,不管我年纪多大,总能和最优秀的年轻人一起工作。所以我和三位非常出色的年轻技术专家——贾斯汀·约翰逊、本·米尔登霍尔和克里斯托弗·莱斯特一起创立了一家公司,我们要尝试解决当前 AI 领域最具挑战性的问题。

Diana Hu:这团队太厉害了,克里斯是 Pulsar 的创造者,Pulsar 是 Cautious Flats 之前的一个早期项目,涉及很多可微渲染的工作。还有贾斯汀·约翰逊,他之前是你的学生,有很强的系统工程思维,实现了实时神经风格迁移。本·米尔登霍尔是 NeRF 论文的作者,这真是一支超级精英团队,而且确实需要这样的团队。

我们刚才聊过,在某种程度上,视觉问题比语言问题更难,这么说可能有点争议,因为LLM本质上处理的是一维的数据,但你要处理的是理解大量的三维结构,为什么会这么难?而且在研究进度上,视觉也落后于语言研究。

李飞飞:谢谢你理解我们这个问题有多难!语言本质上是一维的,音节是按顺序排列的,这就是为什么序列到序列模型如此经典。

还有一点人们可能没有意识到,语言是纯粹生成式的。自然界中并没有语言,你摸不到、看不到语言,语言完全是从人的大脑中产生的,这是一种纯粹的生成式信号,你把它写在纸上,它才会有形。

但语言的生成、构建和应用都是非常具有生成性的,而现实世界要复杂得多。首先,真实世界是三维的,如果加上时间维度就是四维。但我们先只考虑空间维度,它本质上是三维的,所以从组合复杂度来说,这就是一个难度大得多的问题。

其次,对视觉世界的感知和接收是一种投影过程,不管是通过眼睛、视网膜还是相机,都是把三维的世界投影到二维上。要知道这有多难,这在数学上是一个病态问题。 所以这就是为什么人类和动物有多种传感器,需要去解决这个问题。

第三,现实世界并非完全可生成的。我们可以生成虚拟的3D世界,但它仍需遵循物理规律等等。不过,外面还有一个真实的世界。现在突然要在生成和重建之间流畅切换,而且用户行为、实用性和应用场景都大不相同。如果完全偏向生成,我们可以聊聊游戏和元宇宙之类的,如果完全偏向现实世界,那就是在聊机器人技术之类的,但所有这些都处于作为空间智能的世界建模的连续谱上。当然,大家都避而不谈的问题是,互联网上有大量的语言数据,那空间智能的数据在哪里?

这些数据当然都在我们的脑子里,但不像语言数据那样容易获取,这就是事情如此困难的原因。但坦率地说,这让我很兴奋,因为如果事情容易,别人早就解决了。我的整个职业生涯都在攻克那些难到近乎妄想的问题,这就是那个近乎妄想的问题,感谢你支持我。

Diana Hu:从第一性原理来思考,人类大脑的视觉皮层中有比处理语言更多的神经元来处理视觉数据。这在模型中是如何体现的?从你目前的发现来看,它的架构和LLM有很大不同。

李飞飞: 这是个非常好的问题。外面有不同的观点,有LLM,我们在LLM中看到的很多成果,实际上是把规模定律运用到极致,几乎可以通过强力的自监督一路构建世界模型,这可能更微妙一些。世界结构更复杂,可能需要一些信号来引导,可以称之为先验知识,也可以说是数据中的监督信息。我认为这些都是我们必须解决的开放性问题。

首先,我们对人类感知也并非完全了解,人类视觉中的3D原理都还没有解决。从机械原理上说,双眼要对信息进行三角测量。即便如此,数学模型在哪里?人类作为3D动物没那么厉害,有很多问题有待解答。我真的只指望一件事,就是拥有像素领域最聪明的人来解决这个问题。

Diana Hu:可以说你们在 World Labs 构建的是全新的基础模型,其输出是3D世界,你预想的一些应用有哪些?我记得你提到了从感知到生成的各种应用,生成模型和判别模型之间一直存在张力,那么这些3D世界能有什么作用?

李飞飞:关于 World Labs 本身的细节我不能透露太多,但就空间智能而言,它的用途非常广泛,就像语言一样,从创作角度,可以想到设计师、建筑师、工业设计师,还有艺术家、3D艺术家、游戏开发者,从创作到机器人技术、机器人学习,空间智能模型或世界模型的实用性非常大,而且与之相关的行业众多,从营销到娱乐,甚至到元宇宙。

我真的对元宇宙很兴奋,我知道很多人觉得它还不行,但这就是我兴奋的原因,我认为硬件和软件的融合即将到来,这也是未来的一个很棒的应用场景。

Diana Hu:你正在攻克元宇宙问题,我个人对此非常兴奋,我之前的公司也尝试过,所以我很高兴你现在在做这件事。

李飞飞:我认为有更多积极信号。硬件确实是个障碍,但你需要内容创作,而元宇宙的内容创作需要世界模型。

Diana Hu:对一些听众来说,你从学术界转型成为创始人兼CEO可能有些突然。但实际上你一生经历非凡,这不是你第一次从0到1创业。你和我提到过,你十几岁移民到美国时不会说英语,后来还经营了多年洗衣店,能讲讲这些经历如何塑造了现在的你吗?

李飞飞:我相信你们是来听如何开洗衣店的。

Diana Hu:那是你19岁的时候对吧?

李飞飞:是的,那是出于无奈。我没有办法养家、供养父母,而我想上大学,去普林斯顿学物理,后来我就开了一家不错的干洗店,用硅谷的话说,我筹集资金,我是创始人、CEO,我也是收银员,什么都得干,七年后我把店转手了。我从未因为我的自助洗衣店获得过欢呼,谢谢你们的掌声(笑)。

我看着台下,特别为你们兴奋,因为你们年龄只有我的一半,甚至可能只有我年龄的30%,你们这么有才华,放手去做吧,别害怕。

我整个职业生涯,即使作为一名教授,我也选择过几次,去那些我是第一个计算机视觉教授的院系。这违背了很多人的建议,作为年轻教授,你应该去有学术社群和资深导师的地方。我也想有资深导师,但如果没有,我得开拓自己的道路,所以我不害怕。

后来我去了谷歌,在谷歌云学习了很多商业知识,包括企业对企业业务等。2018年左右,我在斯坦福大学创办了一家初创公司,因为当时 AI 不仅席卷了整个行业, AI 还成了人类面临的问题。人类总会引导科技发展,但我们不能失去人性,我真的很在乎在 AI 发展进程中创造积极的影响。

我在想如何让 AI 以人类为中心,如何创造能帮助人类的 AI 。所以我回到斯坦福,创办了以人为本的 AI 研究所,并像经营初创公司一样管理了5年。可能有些人不太高兴我在大学把它当初创公司来经营,但我为此感到非常自豪,在某种程度上,我就是喜欢当创业者。

我喜欢从零开始的感觉,就像站在起点。忘掉你过去的成就,忘掉别人对你的看法,埋头苦干,这就是我的舒适区,我就喜欢这样。

Diana Hu:除了你所取得的所有了不起的成就之外,另一件很酷的事是,你指导了很多传奇的研究人员,比如安德烈亚·卡帕西、英伟达的范丞、在 Image Net 项目上的合著者贾丹,他们后来都有了令人瞩目的职业生涯。在他们还是学生的时候,有什么特别之处?你能给听众一些建议,怎样看出一个人会改变 AI 领域吗?

李飞飞:首先,我才是幸运的那个。我觉得我从学生身上学到的比他们从我这里学到的更多,他们真的让我成为一个更好的人、更好的老师、更好的研究员。能和这么多传奇学生一起工作,是我一生的荣幸。他们各不相同,有些是纯粹的科学家,埋头解决科学问题,有些是行业领袖,有些是 AI 知识的杰出传播者。

我认为有一点是他们共有的,我鼓励每个人都思考这一点。对于那些招聘的创始人来说,这也是我的招聘标准,我看重的是智识上的无畏。你来自哪里不重要,我们要解决的问题是什么也不重要,那种勇于接受困难、全身心投入并以自己的方式努力解决问题的勇气和无畏精神,才是成功人士的核心特质。我从他们身上学到了这一点,我也真的在寻找有这种特质的年轻人,作为 World Labs 的 CEO,我招聘时就看重这种品质。Diana Hu:你们在 World Labs 也在大量招人,所以你们也在寻找具备同样能力的人才,对吧?

李飞飞: 太好了,我得到了 Diana 的许可!没错,我们正在大量招聘工程人才、产品人才、3D人才和生成式模型人才。如果你觉得自己无所畏惧,并且热衷于解决空间智能问题,欢迎和我聊聊或者访问我们的网站。

Diana Hu:很酷,接下来10分钟是开放提问环节。

观众A :教授,感谢您精彩的演讲,我是您的超级粉丝。我的问题是,二十多年前,您从事视觉识别研究,我想开始攻读博士学位,我应该研究什么才能像您一样成为传奇人物?

李飞飞:我想给你一个深思熟虑的答案,因为我也可以简单地说,做任何让你兴奋的事情。首先,我认为 AI 研究已经发生了变化,因为如果你要攻读博士学位,意味着你要进入学术界,而如今学术界已不再掌握大部分的 AI 资源。这和我那个时候大不相同,在学术界,芯片、计算资源和数据都非常有限,而且有些问题,工业界能够解决得更快。

所以作为一名博士生,我建议你去寻找那些不会与工业界形成竞争的研究方向,工业界可以利用更好的计算资源、数据和团队协作来更有效地解决问题。但在学术界,我们仍然可以发现一些真正根本性的问题,而这些问题的解决与你拥有多少芯片无关,你可以取得很大进展。

首先,对我来说,跨学科 AI 在学术界是一个非常令人兴奋的领域,尤其是在科学发现方面,有很多学科都可以与 AI 交叉,我认为这是一个大有可为的领域。

从理论层面来看,我发现 AI 的能力已经远远超越了理论,这令人着迷。我们没有可解释性,我们也不知道如何找出因果关系,模型中有太多我们不理解的地方,值得去深入研究。另外,在计算机视觉领域,仍然存在一些表征问题有待解决。此外,小数据也是另一个非常有趣的领域。这些都是可行的研究方向。

观众B :感谢李教授,再次祝贺您获得耶鲁大学的荣誉博士学位,一个月前我很荣幸见证了那个时刻。我的问题是,在您看来,AGI 更有可能以单一统一模型的形式出现,还是以多智能体系统的形式出现?

李飞飞:你提出这个问题的方式实际上包含了两种定义。其中一种是定义更偏理论性,也就是将 AGI 定义为通过某种智商测试来判定 AGI 。问题的另一部分则更偏实用主义,如果是基于智能体的,它是否具有功能性?它能完成哪些任务?

说实话,我对 AGI 的定义感到很困惑。原因如下:1956年在达特茅斯相聚的 AI 先驱们,比如约翰·麦卡锡和马文·明斯基,他们想要解决机器思考的问题,而艾伦·图灵在几年前,比他们早10年左右也提出过类似的问题,当时提出的这个问题并非狭义的 AI ,而是关于智能的一个更广泛的概念。所以我不太清楚如何区分 AI 和 AGI 这两个词的含义,对我来说,它们是一回事。但我明白,如今这个行业喜欢称AGI,好像它超越了AI,我对此很困惑,因为我不清楚 AGI 和 AI 有什么不同。如果说如今类似 AGI 的系统比起八十年代、九十年代那些狭义 AI 系统表现更好,我认为这没错,这只是这个领域的发展进程。

但从根本上说,我认为 AI 的科学就是智能的科学,就是能创造出能像人类一样,甚至比人类更智能地思考和做事的机器,所以我不知道如何定义AGI,在没有定义它的情况下,我也不知道它是否是单一的。如果你把大脑看作一个整体,你可以说它是单一的,但它确实有不同的功能,甚至还有负责语言的布洛卡区、视觉皮层和运动皮层,我确实不知道该如何回答这个问题。

观众C :嗨教授,我只想说声谢谢。看到一位女性在这个领域发挥主导作用,这真的很鼓舞人心。作为一名研究员、教育者和企业家,我想问,您认为在 AI 迅速崛起的当下,什么样的人适合攻读研究生学位?

李飞飞:这是个很棒的问题,甚至连家长们都会问我这个问题。我真的觉得研究生阶段的四五年是你充满强烈好奇心的时期,你被好奇心驱使,这种好奇心如此强烈,以至于没有比这里更好的地方能让你去探索了。这和创业不同,因为创业你必须稍微谨慎一些,创业不能仅仅由好奇心驱动,你的投资者会对你不满的。

创业公司拥有更明确的商业目标,其中一部分是好奇心,但又不完全是。而对于研究生阶段来说,解决问题或提出恰当问题的好奇心非常重要,我认为那些带着强烈好奇心入学的人会真正享受这四五年,即使外面的世界飞速发展,你依然会很开心,因为你在跟随自己的好奇心前行。

观众D :感谢您抽出时间来和我们分享。您提到开放源代码是 ImageNet 发展的重要因素。如今随着LLM的发布和发展,我们看到不同组织在开源方面采取了不同的方式,有些组织完全闭源,有些组织完全公开其整个研究代码库,有些则处于两者之间,比如开源模型权重或采用有一定限制的许可证等。所以我想问,您如何看待这些不同的开源方式,您认为 AI 公司进行开源的正确方式是什么?

李飞飞:我认为当存在不同的方式时,整个生态系统才是健康的。我并不偏执地认为必须开源或者必须闭源,这取决于公司的商业战略。例如,很明显为什么Facebook 或是 Meta 想开源,他们目前的商业模式还不是售卖模型,他们是用它来发展生态系统,从而促使人们使用他们的平台,所以开源很有意义。

而另一家靠这个盈利的公司,甚至在盈利方面,你可以考虑设置开源版本和闭源版本,所以我对此都持开放态度。从更宏观的层面来说,我认为开源应该得到保护,我觉得无论是公共部门,比如学术界还是私营部门的开源努力都非常重要,这对创业生态系统很重要,对公共部门也很重要,我认为应该在技术上给予保护,而不应该受到惩罚。

观众E :我想问个关于数据的问题,您详细地阐述了机器学习向以数据驱动方法的转变,就像 ImageNet 那样。现在您在研究世界模型,您提到互联网上没有这种空间数据,它只存在于我们的大脑中,您是如何解决这个问题的?您押注在哪方面?是从现实世界收集这些数据,还是在生成合成数据?您是否相信合成数据,还是相信传统的先验知识?李飞飞:你应该加入 World Labs,我会告诉你的 。作为一家公司,我不能透露太多,但我认为重要的是承认我们正在采取一种混合方法。拥有大量数据固然重要,但拥有大量高质量的数据也同样重要。归根结底,如果你不注意数据质量,那还是会“输入垃圾,输出垃圾”。

观众F :在您的书《我眼中的世界》里,您谈到了作为一名移民女性在理工科领域所面临的挑战。我很好奇,您是否有过在工作场所感觉自己是少数群体的时刻,如果有的话,您是如何克服这种情况或说服他人的?

李飞飞: 感谢你的问题。我想非常谨慎和周到地回答你的问题,因为我们都来自不同的背景,每个人的感受都很独特。你知道,其实大的类别是什么几乎都不重要。我们每个人都有感觉自己是少数群体或者是房间里唯一异类的时刻,当然我也有过这样的感受。有时候是因为我自身的身份,有时候是因为我的想法,有时候是因为衬衫颜色之类的。

但在这里我想鼓舞大家,可能是因为我从小就来到了这个国家,我已经接受了现实,我就是一个移民女性,我几乎培养出了一种不过分在意这一点的能力,我和你们每个人一样,来到这里就是为了学习、做事、创造。

真的,你们所有人,即将开启或者正在开启某件事的过程中,你们会有脆弱或奇怪的时刻,我每天都在感受这点,尤其是在创业的时候。有时候我就想,天哪我不知道自己在做什么。专注去做就好,用梯度下降法让自己找到最优解。

Diana Hu:谢谢飞飞,这是个很棒的结尾。

大模型机动组

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测