品玩

科技创新者的每日必读

打开APP
关闭
百度

百度的 AI 学会了举一反三,离强人工智能又近了一步

百度 AI 同时使用计算机视觉观察地图,自然语言技术理解指令,经过极少量的训练后,在游戏环境里可以理解并执行过去没有听过,也没有定义过的指令,且成功率达到了 90%。这可能是 AI 首次实现举一反三,在像人类一样学习的道路上又往前迈了一步。

光谱

发布于 2017年3月30日

你一定知道,AI 在下围棋上已经比人类厉害了。不过,绝大多数在完成特定任务上性能卓越的 AI,实际上只是面向单一任务进行训练出来的而已,如果一个 AI 的任务是下棋,它就只会一步一步下棋,你要是突然问他“怎么下才能赢?”它根本不知道,八成会宕机。

这就是你暂时不需要担心 AI 终结人类的原因:它不会举一反三,没法解决一些在认知上跨度比较大的任务。举个例子,在《坦克大战》里,胜利的方式是尽量保存更多的砖块,吃掉增益,击毁所有的敌方坦克,一个正常的人类玩家可能玩上一两盘就明白了,而 AI 可能会把所有的砖块全都打掉,输掉成千上万盘游戏才能迎来第一盘胜利。

人很容易理解“保存砖块只打坦克”这句话,但 AI 理解不了,它只会玩游戏,不会听话。

想要实现强人工智能,甚至通用人工智能,这个问题迟早有一天要解决。PingWest品玩发现,近日百度发布的一篇论文显示,该公司搭建了一个 AI 系统,组合了计算机视觉和自然语言处理两种技术,让 AI 学会了“举一反三”:在一个专门架设的游戏环境中,AI 控制的角色可以理解并执行过去从未发出,也从未定义过的指令,且成功率达到了 90%。

研究团队由深度学习研究院杰出科学家徐伟带领,采用的是监督学习和强化学习所组合的深度学习技术。研究人员设计了很简单的游戏场景 XWORLD,在一个 8 x 8 的游戏空间,AI 控制一个主角,一些砖块和可以“吃”的水果,位置均随机。他们采用的训练方式很简单,1)直接给出一句自然语言指令,比如“请前往苹果的位置”,然后根据 AI 的行为奖罚;2)用自然语言向 AI 发问,比如“在北边的水果是什么?”根据答案正确与否奖罚。

至于地图什么情况、哪些是砖块哪些是水果、北是什么方向、苹果长啥样,AI 则是采用计算机视觉来进行判断的。很快研究人员就发现,AI 不需要以往那么多的训练次数,就可以实现举一反三,准确地执行一些从未听过的新指令,比如“请去到无花果的西边”、“你可以去苹果和香蕉的中间吗?”、“请移动到红色/绿色的苹果”,以及回答非指令问题,比如“靠南的水果是什么”(西瓜)。

如果你已经学会了怎样用水果刀削苹果,那你几乎不需要指导也能用水果刀削梨和火龙果。其实这就是举一反三,因为通过将感官获得的资讯进行认知整合(特别是语言方面),从而实现知识和经验的迁移,对于人类而言是一件特别容易的事情。但在过去计算机一直无法实现,除非人类对“反三”中每一种可能出现的状况都预先编程。

在徐伟团队论文描述的实验中,AI 系统能够从训练指令中学习语法,处理和回答新的指令、问题,意味着计算机终于首次在某种特定的环境下获得了举一反三的能力。机器学习中,这种能力的术语叫做“零样本学习”(zero-shot learning ability)。

对于这项技术,接下来百度还有新的打算。除了让 AI 在 XWORLD 环境里增加新的功能,理解更多、更复杂的指令之外,徐伟团队还打算将它迁移到虚拟的三维空间中进行训练,最终极目标则是在实际环境中,让人类教师用自然语言来训练机器人。

不管终极目标能否实现,至少今天,在像人类一样学习的道路上,机器又往前迈了一步。

下载品玩App,比99.9%的人更先知道关于「百度」的新故事

下载品玩App

比99.9%的人更先知道关于「百度」的新故事

iOS版本 Android版本
立即下载
光谱

品驾 高级主笔,关注汽车相关前沿技术和产业链。原品玩硅谷主笔。欢迎联系我交流行业信息,分享新闻线索

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测