剑指多人夺旗游戏，曾经挑战围棋之巅的Deepmind团魂燃烧了-品玩

很多人小时候都玩过的抓人、抢凳子游戏，在现在一些西方小朋友记忆里，可能会被替换成夺旗游戏。

夺旗游戏的规则为，对垒双方需要在保护自己阵营里旗子的同时，夺取藏在对方阵营里的敌旗带回自己的基地，而玩家一旦在抢旗过程中被敌人抓到，就会出局。

对于人类小孩来说，这种目标明确的合作类游戏非常容易掌握，但 AI 却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。

通过端到端的强化学习，AI 已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中，由于可能出现的情况过于复杂，对于 AI 而言，在学习难度上，5 岁小孩都会玩的夺旗还真的比围棋高出不少。

最近，工程师们终于教会了 AI 夺旗。

上月底，DeepMind 在 Science 上发表了论文《基于人口强化学习的 AI 在 3D 多人游戏中达到人类水平》（Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning），介绍了一种能让 AI 自己学会夺旗，并制定团队策略的模型。

DeepMind 研究员、论文第一作者 Max Jaderberg 表示：“在训练过程中没有人告诉 AI 如何玩这款游戏——只有在胜利或失败后才知道 AI 是否了解怎么玩游戏。”

在最终测试中，这个名叫 FTW（For The Win）的夺旗 AI 取得了比人类更好的表现。在 2 个人类对抗 2 个 AI 的比赛中，AI 组平均每局比人类多拿 16 个旗。在两位人类专业选手开黑的情况下，人类对 AI 的胜率才勉强提到了 25%（6%平局）。

FTW 以压倒性的优势胜出。

终于，连团队合作也不是人类的专利了。

《雷神之锤3：竞技场》夺旗大战

DeepMind 用来训练 FTW 的“斗兽场”，是大受欢迎的第一人称射击游戏《雷神之锤3：竞技场》中的夺旗模式。

在夺旗模式中，红蓝双方在随机生成的对称地图中比赛，五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地，双方基地被标记为不同颜色。

在夺旗过程中，除了追逐和躲避，玩家还可以用激光“点杀”扛旗的对手。点到对手后，旗子会被回收，对手几秒后会在自家基地里重生。

在以往的训练过程中，工程师们往往会帮助 AI “作弊”——让 AI 访问环境模型、其他玩家或智能体的先验状态。比如在 DeepMind 与暴雪合作训练的《星际争霸2》智能体 AlphaStar 眼里，游戏就是被拆解好的各种特征层。

而在训练 FTW 时，AI 没有开启上帝视角，只能通过观察和移动与环境和其他智能体交互。FTW 可以前后左右移动，通过左右旋转扫视周围环境，获得的输入信息只有第一人称视角画面，和正常玩家完全一样。

为了给提供足够多的队友和敌人，工程师在地图里投放了 30 个智能体进行“大混战”。

为了防止智能体记忆地图，每次的场地也是随机生成的。

就像学生学习有快有慢一样，30 个智能体的水平和偏好也参差不齐。在下图底部，每一个圆圈都代表一个智能体，圆圈内部的深色面积越大，则该智能体越强。在训练过程中，智能的计算策略也在不停地进化和变异。

几千局游戏后，每个智能体都建立了各自的奖励信号和小目标，有的决定去拔掉旗子，有的决定专门抢人头，真正做到了分工明确。

FTW 自学成才

据论文描述，在计算公式中，有几个重要的参数。第一是智能体“看”到的第一人称视图像素，以RGB数值输入；第二是游戏中的得分，直接在得分板上显示；第三是 AI 采取的行动路径（左转右转或前进后退）。而智能体的最终目的，是找出一种使积累奖励值最大化的策略。

在训练时产生的数据分别被传递到两个循环神经网络，一个快，一个慢。快速神经网络处理和预测时间序列中不断发生的事件，慢速神经网络则对于养成行为策略有监督作用，两者在最后相互耦合，共同输出游戏行为。

此前，多人游戏中的智能体常常采用“左右互搏”的方式来自我进化，但这样训练出的智能体在团队合作中表现很不稳定。举个例子，在某些情况下 AI 会变成人工智障，在游戏刚开始时就有 10 个 AI 冲出去抢旗。

对此，DeepMind 提出的解决方案是，并行训练多个不同的智能体集群相互配合，并基于比赛结果优化内部奖励系数。

通过个体和团队训练的双层流程，智能体确立了复杂的奖励机制——最大化自我奖励的内部目标，和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色，也有冲锋陷阵赢得鲜花荣耀的角色，而在 FTW 的奖励机制里，它们都是 MVP。

请停止你的 AI 行为！

在这种训练框架下，FTW 出现了很有意思的进化。

随着训练的进行，FTW 有了自家基地的概念，然后认清了对方基地在哪，最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后，FTW 立即更新了自己的行动。而此前，工程师从未有针对性地培训过智能体进行这些行为（对比 AlphaStar，曾将游戏任务拆分成多模块分别进行强化学习）。这些结果表明，纯粹通过强化学习的训练，FTW 自发产生了和游戏规则相关的概念。

据论文中说明，在进行游戏时 FTW 会自行分析将近200多个影响最终决策的问题，其中包括：我手上有旗帜吗？我最近见到过我的队友吗？我能很快到达敌方基地吗？

通过比较这些问题的答案和得分情况，FTW 自行生成了能提高胜率的策略。

比如，在一名队友运送旗帜期间，会有另一名队员埋伏在敌方基地，因为 FTW 知道一旦运旗的队友被击杀，敌方旗帜马上会刷新，早就埋伏好的队员就可以立刻捡起来。

此外，在训练过程中，FTW 曾经追着抢到旗的队友跑，后期发现这种策略对胜率无益，遂舍弃。在游戏快要结束时，FTW 更倾向于在自家基地门口防守，以防止对方缩小比分差距，而在游戏前期则倾向于进攻。

在最终的测试中，DeepMind 团队发现 FTW 能以 16 分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家，在 FTW 面前的也胜率只有 25%。

为了确保游戏公平，工程师给 FTW 加上了 267 毫秒的反应延迟，结果 FTW 的胜率降低了，但仍高于人类。

未来的 AI 会进化出个性吗？

DeepMind 这篇论文证明，即使没人教，没有上帝视角，甚至连基本游戏概念都没有，放养的 AI 也能在多智能体环境中学会竞争和合作，甚至出现和高级团队策略。

此外，每个智能体都进化出了各自的“小目标”，达成自己设定的目标就会获得奖励。就好像每个 AI 都在小时候写了一篇《我的理想》，无论是防守还是进攻，它们都有光明的前途。

也许在不久的将来，我们不仅能在游戏中遇到行动和人类类似的 NPC，把单机游戏玩出联机感，还能养成一只有“个性”有理想的 AI。

想想还有点小激动！