品玩

科技创新者的每日必读

打开APP
关闭
人工智能

强大的人工智能推理(一):如何训练多用途机器人

DeepMind正在解决“灾难性遗忘”问题。

悦智网

发布于 2021年12月21日

*转载文章不代表本站观点。

本文来自微信公众号“悦智网”(gh_ad4cb8f6a543)作者:Tom Chivers


人工智能已经深入我们的生活。也许你很难举出显著的例子,但在无数琐事的幕后,都有神经网络在驱动我们的虚拟助手,提出网上购物的建议、识别照片中的人物、仔细检查银行交易是否存在欺诈、将语音信息转录成文字,以及在社交媒体中清除有害的帖子等。这些应用的共同之处在于都是在受限、可预测的环境中学习和运行。

但将人工智能更牢固地嵌入我们的事业和企业却是一个巨大的挑战。为了更上一层楼,研究人员正试图将人工智能与机器人技术融合,创造出一种能够在凌乱、不可预测且客观的现实世界中做出决策并控制身体的智能体。这是一个潜在的革命性目标,引起了全球一些强大的技术研发组织的注意。“我想说,机器人这个领域可能比计算机视觉落后了10年。”谷歌伦敦人工智能合作伙伴DeepMind机器人主管拉亚•哈塞尔(Raia Hadsell)说(谷歌及其人工智能合作伙伴DeepMind都是Alphabet的子公司)。  即使对谷歌来说,挑战也很艰巨。

有些很难但很直接:大量的数据集推动人工智能在其他领域的发展,而对大多数机器人应用来说,很难收集这么庞大的数据集。但有些问题确很深奥,与人工智能长期存在的难题有关。比如,如何在不忘记旧任务的情况下学习新任务?如何将人工智能为实现新任务学习的技能应用到以前掌握的任务中?

如果成功,将意味着打开了将人工智能应用于新范畴的大门。我们热切想要人工智能做许多事情,比如驾驶汽车和卡车、在养老院工作、做灾后清理、做家务琐事、盖房子、播种、养殖和收获庄稼等,只有比如今的机器人更复杂、功能更多样的机器人才能完成这些任务。

除了开拓潜在的巨大市场之外,对于机器人技术、所有人工智能研究,甚至是我们对自身智能的理解,这项工作将有直接、重大且深远的影响。

让我们先从那个平淡无奇的问题开始。神经网络的好坏完全取决于用来训练它的数据的质量和数量。近来,庞大数据集的可用性已成为人工智能取得进展的关键:用几百万张标记图像训练图像识别软件。用于训练击败围棋大师的AlphaGo的数据集包括数十万局人类对弈,以及数百万局与自己的模拟对弈。

然而,我们没有如此庞大的数据集来训练机器人。“这是一个问题。”哈塞尔指出。我们可以在几分钟内模拟数千局围棋游戏,在数百个CPU上并行运行。但是如果一个机器人拿起一个杯子需要3秒钟,那么每分钟一个机器人只能重复这个工作20次。更重要的是,如果图像识别系统弄错了前100万张图像,可能问题不大;而如果双足机器人在开始尝试行走时摔倒了1 000次,即使不严重,机器人也会严重损坏。

现实世界的数据问题至少在目前是无法解决的。但随着机器人在实验室里不断地呼呼旋转,DeepMind尽其所能在不停地收集数据。在整个领域,机器人研究人员都在尝试一种被称为“仿真到现实”(sim-to-real)的技术来解决数据匮乏问题。

总部位于旧金山的OpenAI实验室最近在训练机械手解魔方时利用了这一策略。研究人员建立了一个虚拟环境,其中包含一个魔方和一个机械手的虚拟模型,仿真训练运行机械手的人工智能。然后他们将这个人工智能安装在真实的机械手上,并给它一个真实的魔方。他们用sim-to-real程序使真实的机器人解决了这个真实的难题。

哈塞尔表示,尽管取得了这些成功,但这项技术仍然有很大的局限性。他表示,人工智能研究员和机器人专家罗德尼•布鲁克斯(Rodney Brooks)“喜欢说仿真注定会成功”。然而问题在于,仿真的条件太完美,太脱离现实世界的复杂性。“想象一下,两只仿真机械手在试着组装一部手机。”哈塞尔说。如果你允许它们尝试数百万次,它们最终可能会发现,以恰到好处的力度将所有部件抛向空中,随着恰到好处的旋转量,它们可以在几秒钟内组装好手机:这些部件准确地落在机器人想要它们落在的地方,组装出一部手机。这在完全可预测的仿真环境中可能可行,但在复杂、混乱的现实中永远不可能实现。目前,研究人员不得不接受这些不完美的仿真假象。“你可以人为地添加噪声和随机性。”哈塞尔解释道,“但当代仿真还不足以真实再现一小块现实。”

还有更深奥的问题。哈塞尔最感兴趣的问题是灾难性遗忘:当人工智能学习一项新任务时,它有一种令人遗憾的倾向——忘记所有旧任务。

问题不在于缺少数据存储,而在于大多数现代人工智能学习方式中的固有问题。深度学习是当今最常见的一类人工智能,它基于神经网络,使用神经元样的计算节点,分层排列,并通过类似突触连接连在一起。

在执行任务之前,例如将区分图像中的猫或狗,必须对神经网络进行训练。第一层节点接收猫或狗的输入图像。这些节点会检测图像的各种特征,然后要么激发,要么保持安静,再将这些输入传输给第二层节点。如果上一层的输入足够高,则各层中的各个节点都会激发。可以有很多这样的层,最终,最后一层将给出结论:“猫”或“狗”。

每个连接都有不同的“权重”。例如,节点A和节点B都可能将其输出馈送给节点C。根据它们的信号,C可能激发,也可能不会。但是,A-C连接的权重可能为3,B-C连接的权重可能为5。在这种情况下,B对C的影响更大。举一个非常简单的例子,如果图像中的生物有锋利的牙齿,A可能会激发,而如果生物有长鼻子,B可能会激发。因为鼻子的长度比牙齿的锋利度更有助于区分狗和猫,所以C更关注B。

每个节点都有一个阈值,超过该阈值,它将激发,向自己的下游连接发送信号。我们假设C的阈值为7。然后,如果只有A激发,那么它会保持安静;如果只有B激发,它也会保持安静;但如果A和B同时激发,它们给C的信号加起来将达到8,然后C将激发,影响下一层。

这一切与训练有什么关系呢?任何学习机制都必须能够区分正确和错误响应,并相应地进行改进。如果向神经网络展示了一只狗的图片,并且它的输出为“狗”,那么激发的连接将得到加强;那些没有激发的连接将被削弱。如果神经网络错误输出为“猫”,则会发生相反的情况:激发的连接将被削弱;那些没有激发的连接将得到加强。

但想象一下,你要对用于区分猫狗的神经网络进行重新训练,让它学会区分公共汽车和小汽车,那么它以前的所有训练都没有用了。起初,它对车辆图像的响应输出是随机的。但随着训练的推进,它将重新分配连接的权重,并逐渐变得有效。最终,它将能够非常准确地区分公共汽车和小汽车。然而,如果此时你给它展示一张狗的图片,所有的节点都将被重新分配权重,它将“忘记”以前学到的一切。

这是一种灾难性的遗忘,其主要原因在于,用类似人的灵活智能编制神经网络非常困难。“我们举一个比较经典的例子,训练一个智能体玩桌球游戏。”哈塞尔说。她说,你可以让它玩得很好,每一场它能以20比0胜过电脑;但是如果你稍微打乱一下权重,比如用《打砖块》或《吃豆人》游戏训练它,“水平就会一落千丈。”突然,它每次都会以20比0输掉比赛。

这个弱点不仅成为制造能完成多个不同任务机器人的绊脚石,也是所有能适应周围环境变化并在必要时学习新策略的人工智能系统的绊脚石。

要解决这个问题,还是有一些办法的。显而易见的办法是简单地将每一项技能都存储下来。用一项任务训练神经网络,将其网络权重保存到数据存储器中,然后再用新任务训练它,再将这些权重也保存起来。那么,系统只需在开始时识别挑战的类型,应用一组适当的权重即可。

但这一策略有局限性。首先,它不可扩展。如果我们想制造一个能够在各种环境中完成多种任务的机器人,我们必须用每一项任务训练它。如果环境是非结构化的,我们甚至无法提前知道其中一些任务是什么。另一个问题是,这种策略不允许机器人将解决任务A所获得的技能迁移到任务B上,而这种知识迁移能力是人类学习的一个重要特征。

哈塞尔喜爱的方法叫“弹性权重加固”(elastic weight consolidation)。其要点是,在学习了一项任务后,神经网络评定神经元节点之间哪些突触连接对该任务最为重要,并部分冻结其权重。“这个数字将相对较小。”她说,“比如说5%。”然后保护这些权重不被轻易更改,而其他节点还可以像以往一样学习。现在,当玩桌球游戏人工智能在学习玩《吃豆人》时,那些与桌球游戏最相关的神经元将大部分保持不变,这样它将继续很好地玩桌球游戏。它可能不会保持20比0的获胜比分,但可能以18比2获胜。

但是,这有一个明显的副作用。神经网络每学习完一项任务后,将有更多的神经元变得没有弹性。如果桌球固定了一些神经元,打砖块又固定了一些,“最终,当你的智能体继续学习玩雅达利游戏时,它会变得越来越固定,越来越不可塑。”哈塞尔解释道。

这与人类的学习大致相似。在我们年轻时,我们非常擅长学习新事物。随着年龄的增长,对于已经学过的东西越来越擅长,但学习新技能却变得越来越困难。

“婴儿一开始有着非常密集的连接,但这种连接很弱。”哈塞尔说,“随着时间的推移,这些连接变得越来越稀疏,却越来越牢固。这让我们有了记忆,但也限制了我们的学习。”她推测,类似这样的事情可能有助于解释为什么非常年幼的孩子没有记忆:“我们的大脑布局根本不支持它。”在一个非常年幼的孩子身上,“每件事总是被灾难性地遗忘,因为每件事都被连接在一起,没有得到保护。”

哈塞尔认为,弹性丧失问题是可以解决的。自2018年以来,她一直在与DeepMind团队合作,研究一种叫做“渐进与精简”(progress and compress)的技术。该技术融合了机器学习领域里相对较新的3种理念:渐进式神经网络、知识升华,以及上文介绍的弹性权重加固。

渐进式神经网络是一种避免灾难性遗忘的简单方法。它不是对单一的神经网络进行一个又一个的任务训练,而是在一个神经网络完成一个任务训练(比如《打砖块》)之后,将它的连接原地冻结,将该神经网络移动到存储器中,并创建一个新的神经网络来训练一项新任务,比如《吃豆人》。它关于之前每一项任务的知识都冻结在原地,因此无法遗忘。每次创建一个新的神经网络,它会将以前训练过游戏的连接带过来,它可将技能由旧任务迁移到新任务。但是,哈塞尔说它有一个问题:它不能将新技能知识反向迁移给旧技能。“如果我再回去玩《打砖块》,我其实没有从这个(新)游戏中学到任何东西。”她说,“没有向后迁移。”

这就有了英裔加拿大计算机科学家杰弗里•辛顿(Geoffrey Hinton)开发的知识蒸馏的用武之地。它将接受过任务训练的多个不同神经网络压缩成一个神经网络,对它们的预测取平均数。因此,这种办法不涉及各自接受单独游戏训练的许多神经网络,而是只有两个神经网络:一个学习新游戏,称为“活动列”(active column),另一个包含所有以前游戏训练的知识,并取平均数,称为“知识库”(knowledge base)。首先,对活动列进行新任务训练(“渐进”阶段),然后将其连接添加到知识库中,并升华(“精简”阶段)。将两个网络画成两列更有助于理解。哈塞尔真的这么做了,她一边说一边在白板上画给我看。

问题是,使用知识升华将渐进式神经网络系统中许多单独的神经网络合并到一起,又把灾难性遗忘的问题带回来了。我们需要更改所有连接的权重,并使先前的训练无效。为了解决这个问题,哈塞尔加入了弹性权重加固:每次活动列将其在特定任务中学到的知识迁移到知识库时,它都会部分冻结对该特定任务最重要的节点。

由于使用了两个神经网络,哈塞尔的系统避免了弹性权重加固的主要问题,即最后所有连接被冻结。知识库可以任意大,所以冻结少数几个节点没关系。但是活动列本身会很小,神经网络越小,学习速度越快、效率越高。因此,哈塞尔说,渐进和精简模型可使人工智能系统将技能从旧任务迁移到新任务,从新任务迁移到旧任务,同时永远不会灾难性地遗忘,也不会无法学习新东西。

其他研究人员正采用不同的策略来解决灾难性遗忘问题,大约有6种研究途径。美国国防部高级研究计划局的项目经理特德•塞纳德(Ted Senator)领导的一个小组正在使用一种最有前景的技术,被称为“内在回放”(internal replay)。“它模仿大脑运行的原理。”塞纳德解释说,“特别是睡眠保存记忆的作用。”

该理论认为,人的大脑在清醒和睡眠时都会回放一天的记忆:它以与相应经历时出现的模式类似的模式重新激活神经元。这种重新激活有助于模式稳固,这意味着不会轻易地被重写。内在回放过程与之类似。在学习不同任务之间,神经网络会重新创建连接和权重模式,大致模仿人的神经活动的清醒-睡眠周期。事实证明,这项技术在避免灾难性遗忘方面相当有效。

在将人工智能安全地应用于日常生活的过程中,还有许多其他障碍要克服。“我们在符号化、数据驱动的人工智能方面取得了巨大进步。”在伦敦帝国理工学院从事机器人研究的蓟马山•纳纳亚卡拉(Thrishantha Nanayakkara)说,“但在与人接触时,我们输得很惨。我们没有一个可信任的机器人可以安全地抱着一只仓鼠。我们也不放心让机器人待在老人或孩子身边。”

纳纳亚卡拉指出,能够让动物应对外部世界的大部分“处理”不是发生在大脑,而是发生在身体的其他部位。例如,人的耳道形状可以分离声波,实质上是“实时运算傅立叶级数”。如果这种处理发生在大脑中,就要多花费宝贵的几微秒时间。“如果你听到声音的时候对象已经不在那儿了,那你就没有融入到环境中。”他说。但目前大多数机器人都依赖CPU来处理所有输入,他认为,必须突破这一限制才能取得实质性进展。

他的同事佩塔尔•科穆谢夫(Petar Korm-ushev)表示,另一个问题是本体感觉,即机器人对自身身体的感觉。机器人自身模型的大小和形状是由人直接编程的。但问题是,当它拿起一个沉重的物体时,它无法更新自身表象。当我们拿起锤子时,我们可调整自己的体形和体重的心智模型,这使我们可以把锤子作为身体的延伸。他说:“这听起来很可笑,但它们(机器人)无法更新它们的运动模型。”他指出,新生儿会胡乱摆动,这不仅能向他们提供外部世界的反馈,而且可以向他们反馈自己的身体。他相信类似的技术对机器人也将适用。

牛津大学的英格玛•波斯纳(Ingmar Pos-ner)正在研究一种机器人版的“元认知”。人类思维通常被模型化为具有两大主要“系统”:系统1依靠直觉,响应较快,例如帮助我们接球或回答诸如“这两块积木中哪一个是蓝色的?”等问题;系统2需要努力,且响应较慢,当我们学习一项新任务或回答一个较难的数学题时,就它发挥作用了。波斯纳给人工智能构建了功能相当的系统。在他看来,机器人总是要么过于自信,要么不够自信,当它们不知道一些事的时候,需要想办法来了解。他说:“我们大脑中有些东西会检查我们对世界的响应。也有些人会说不要相信你的直觉反应。”

对大多数研究人员来说,包括哈塞尔和她在DeepMind的同事在内,长期目标是实现“通用”智能体。然而,哈塞尔关于人工通用智能体的想法并不是那种一般的人工智能,可以完成人类所能完成的所有智能任务,甚至更多。激励她工作的“决不是建立超级智能这种想法”,她说。“而是:我们如何采用通用的方法开发智能来解决特定问题?”比如说,猫的智能为就是一种通用的智能,因为它永远不会遇到令其怯场或失败的新问题。“我发现动物的智能水平真的很吸引人,它们拥有不可思议的敏捷,融合不同的感官模式。你知道,猫永远不会学习语言,这一点我也能接受。”

哈塞尔希望构建能够学习和处理特定领域中的各种问题的算法和机器人,例如准备清理核事故现场的机器人可能有相当高级的目标,即“确保这个地区的安全”,并且能够将这个目标划分为小的子目标,比如找到放射性物质并安全地移除。

我忍不住要问关于意识的问题。一些人工智能研究人员,包括哈塞尔在DeepMind的同事默里•沙纳汉(Murray Shanahan),认为如果机器没有某种意识,就不可能构建出具有真正通用智能的具身人工智能。尽管哈塞尔本人有宗教哲学的背景,但她的方法非常务实。

“我对意识的看法相当简单。”她说。对她而言,意识意味着一种超越“现在”这一狭隘时刻的思考能力——用记忆来回顾过去,用想象展望未来。在这一点上,我们人类做得很好。其他生物则不然:猫感知的时间范围似乎比我们小,对未来的规划也更少;虫子也很少。她并不想在意识和其他哲学观点这一难题上纠缠。事实上,大多数机器人专家似乎都想避开这个问题。科穆谢夫表示,这好比在问“潜水艇会游泳吗?……这种辩论毫无意义。只要它们做了我想做的事,我们就不必用这个问题难为自己。”

在DeepMind机器人实验室,很容易看清楚为什么这类问题不在核心和重要位置。机器人努力拿起积木的结果表明我们不必担心与人工意识有关的哲学问题。

然而,当我在实验室里走动时,我发觉自己在为一个机器人喝彩。一只红色机械臂,像一个刚学步的孩子,笨拙地试着拿起一块星形木块,然后把它插入一个星形孔中。第二次尝试时,它将木块与插槽对齐,打算把它放进去。我不禁大喊:“加油,小伙子!”哈塞尔扬了扬眉。它真的成功把木块放进去了。

至少一项任务完成了。现在,它只需要在学习玩桌球游戏时,继续坚持这一策略。

下载品玩App,比99.9%的人更先知道关于「人工智能」的新故事

下载品玩App

比99.9%的人更先知道关于「人工智能」的新故事

iOS版本 Android版本
立即下载
悦智网

悦智网是IEEE Spectrum中文版《科技纵览》杂志官网。IEEE Spectrum是国际期刊界卓越的技术写作和报道的一盏明灯。我们旨在提供一个跨学科技术领域的“全局”,让读者了解工程学、科学和技术领域的创新成果与发展趋势。

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测