今天上午,由 Google 子公司 DeepMind 开发的《星际争霸2》电竞AI AlphaStar 和人类职业选手同台竞技,DeepMind 也在直播中公布了此前 AlphaStar 与职业玩家对打的比赛视频。
其中,在12月进行的全部的 10 场比赛中,AlphaStar 10:0 完胜人类,让来自液体(Liquid)战队的两位职业选手颗粒无收。而最后一场现场直播赛中,星际争霸职业选手 MaNa 力克 AI,成功“复仇”。
其实,在第一次和 AlphaStar 比赛之前,MaNa 已经有了被打败的心理准备。
“我觉得自己不可能 5 场都赢。在我的假设里,我会和 AI 打成 4:1。”
尽管在迎战 MaNa 之前,AlphaStar 已经以 5:0 的比分完胜了他的队友——虫族职业玩家 TLO,但 MaNa 依然觉得自己赢面比较大。
“毕竟我从 5 岁就开始打星际争霸了。TLO 已经输了,我绝对不能再输。”

然而在前两场比赛中,AlphaStar 表现出了惊人的操作水准和果断的战术,两次都在半小时内拿下了 MaNa 的高地。
在第三场比赛开始前,MaNa 沮丧地说,“我现在只有一个念头:活着就行。”
最终,MaNa 还是输掉了全部的 5 场比赛。人类与 AlphaStar 的首次交锋以 10 局全败而告终。
星际争霸2:AI 难以跨过的坎儿
实际上,在比赛时,DeepMind 的科学家可能比 MaNa 更紧张。因为这场比赛对于 AlphaStar 而言,实在是太复杂了。
在此之前,DeepMind 开发的 AI AlphaGo 已经在围棋中击败了人类,但《星际争霸2》比围棋复杂的多。

第一,在围棋比赛中,AI 可以看到人类对手的每一步行动和全部的棋盘,但在《星际争霸2》中,由于有“战争迷雾”的视野限制,AI只能观察到部分地图。如果 AI 想要知道对手的行动,就必须派资源去侦察。
因此,在这场信息残缺的博弈中,AI 对全局的掌握能力受到了极大的挑战。

其次,在围棋比赛中,棋子一共只有 361 个落点,而在《星际争霸2》中,每个单位可以选择 300 多项基本行动。除此之外,《星际》中的许多动作需要精确到屏幕上的一个点,即使屏幕的尺寸小到 84x84,也有大约 1 亿种可能的动作。
在比赛中,AI 需要同时选择和控制上百个单位,而且稍有失误,就很难再翻盘。

最后,也是最重要的一点,就是《星际争霸2》本身在策略上的复杂性。
身为一款火了 20 多年的即时战略类游戏,《星际》非常重视长期的策略。在这个游戏里,玩家需要不断收集和分配资源,然后建造不同的建筑物和兵种,逐步扩张推进。玩家如果在开局时没有一个成型的策略,很容易就会因为资源短缺而在后期被打崩。
对于 AI 而言,这是一项非常难以理解的任务。
举个例子,在打砖块游戏中,AI 只需要打碎更多的砖块就能获得更高的分数,而在《星际》中,情况就非常复杂了。哪个分数才是最重要的?是气矿还是水晶?是建筑还是兵?因此,想要赢得游戏,AI 还要学会根据对手的行动“权衡利弊”。

这一切,都让《星际争霸2》AI 的开发难度比围棋高出了一大截。
好在 DeepMind 没有让我们等太久。
AlphaStar 如何打败人类
想要让 AlphaStar 打败人类,首先要让它理解游戏中正在发生什么。
DeepMind 的科学家与《星际》的制作方暴雪娱乐合作,将游戏界面分解为若干个“特征层”。其中各种游戏元素(比如不同类型的单元、血量和地图)被以色块的形式区分开来,同时保留了游戏中的空间元素。

接着,为了让 AI 理解游戏中的各项任务,DeepMind 将《星际》拆解成了多个小游戏:比如说移动视角、选择单位、采集和建造。通过这种方式,研究人员希望更直观地看到 AI 在各项任务上的表现。
然而,尽管通过一系列深度强化学习的训练,AI 已经能优秀地完成独立任务,但在游戏实战中,AI 还是会陷入琐碎的任务里而无法顾全大局,被人类玩家完爆。
于是,DeepMind 又引入了另一种训练方式——模仿学习(imitation learning)。
通过学习暴雪提供的十万多个真实玩家录像和比赛回放,AlphaStar 开始模仿人类玩家在某种环境下的行为,理解游戏的基本机制。通过这种方式,AlphaStar 学会了人类的围观操作和宏观策略。
通过这种方式,DeepMind 得到了多个版本的 AlphaStar,这些 AlphaStar 不断地彼此竞争,最终得出了胜率最高的一个版本。
这种被称为“Alpha League”的训练方式效率很高。在一两周的训练时间结束时,AlphaStar 已经玩了 200 年的《星际争霸2》。

在实际比赛中,AlphaStar 会不断分析对手行动,做出胜率最高的决策。从直播中展示的录像来看,在游戏进行到一半时,AlphaStar 已经预测自己有八成的可能性打败 MaNa。

尽管 DeepMind 已经做了一切尝试,让 AlphaStar 变得更厉害,但在直播中,DeepMind 科学家 Oriol Vinyals 还是坦言自己非常忐忑。Vinyals 说:“老实说,我们也非常紧张。直到 TLO 第一次败给 AlphaStar 后对我们说,‘你们真的做到了’,我才得以放松。”
人类还没有被打败
在第一次对战中 10 胜人类,就说明 AlphaStar 完胜了吗?恐怕不是这样的。
上午,人机大战直播中最大的反转出现在最后一场 MaNa 对决 AlphaStar 的直播赛。MaNa 非常紧张,觉得自己是在为液体战队和人类的尊严而战。

在这场比赛中,MaNa 不停空投不朽骚扰 AlphaStar 基地,拉扯AlphaStar 的兵力在老家和前线之间跑来跑去,活生生变成上古游戏里的人工智障。在逼迫 AI 不停消耗资源的同时,MaNa 兵力成型,一举复仇。
“如果对手是人类,一定不会犯这样的错误。”
看完这场复仇之战,主持人和 MaNa 都发出了同样的感慨。
不难看出,AlphaStar 在实战中仍然和人类选手间存在差距,很容易被人类找到固定套路钻空子,然后被击败。
但是最终,像 AlphaStar 这样的 AI 的目标并不是在电竞中击败人类,而是摸索出一套加强 AI 训练的方法,为应对更复杂的虚拟环境做准备。
0 条评论
请「登录」后评论