让人工智能开发游戏，人类玩家只能被虐成狗-品玩

昨天借着全球最大的游戏开发大会 GDC17 的机会，英伟达宣布推出最新款游戏用显卡 GeForce GTX 1080 Ti。新显卡采用 16纳米制程 Pascal 架构，具备 3584 个 CUDA 核心以及高达 11GB 的显存，从纸面参数上新核弹比上一代游戏/通用计算多用途显卡 Titan X 性能稍强一些，比自己的前辈产品 GTX 1080 也强了 35%。

但在新核弹的喧嚣之余，PingWest品玩（微信公众号：wepingwest）关注到了英伟达在游戏开发方面的更多主张和尝试。这家称自己 “All about AI” 的计算技术公司，正在快速改变游戏和 AI 的关系。

此 AI 非彼 AI。在过去，游戏 AI 可以指所有非玩家角色 (NPC)，比如剧情中的配角、Boss 和商人等，也可以再进一步，泛指所有游戏的非玩家内容，比如作战机制和商业系统等等。它是由人设计的。

但英伟达觉得，游戏行业即将进入一个新的 AI 时代——用 AI 来辅助设计和开发游戏，而且质量并不逊于人工制作。

“简单来说，过去的 AI 就是规则和脚本，让 AI 照着你的设计行动，再到后来有了决策树，更先进一些。”英伟达应用深度学习研究部 (Applied Deep Learning Research) 副总裁布莱恩·卡坦萨罗称。但他认为，随着深度学习技术突飞猛进式发展，AI 可以帮助开发者生成音画素材，甚至剧情、任务等机制性的内容。

过去两年，英伟达已经带来了多项基于机器学习和神经网络的工具，以解决游戏开发者面临的棘手难题。举个例子，大型游戏的一大特点是画面精美，但这需要美工画师和视觉设计师巨大的精力去创作材质。受制于人员和财力，中小开发者往往在视觉质量上打了折扣，更多人选择了矢量化，甚至更粗糙的视觉风格。

英伟达高级开发技术经理安德鲁·艾德斯登展示了一项名叫 2Shot 的技术，让开发者更轻松地从真实世界中提取材质，应用到游戏中：只需分别打开和关闭闪光灯，用手机拍摄两张对象材质的照片，计算机将对它们进行自动处理，几分钟后即可生成素材文件。

2Shot 极大降低了开发者优化材质的技术门槛，但它仍有很大的提升空间。英伟达在去年又提出了 1Shot 技术，采用更强大的神经网络进行计算，只需一张照片就能生成素材，时间也降低到了数秒的时间。2Shot 的生成素材质量已经达到了工业级，而 1Shot 的质量还有待提高，但它们已经证明了机器学习和神经网络在游戏开发方面的应用前景。

英伟达还展示了另外两种技术，分别名为 Texture Multiplier 和 Super-Resolution。

Texture Multiplier（材质复制器）类似于视觉特效人员常用的“材质增生”(texture mutation) 技术，最大的不同是采用了经过了大量训练的卷积神经网络 (Convolutional Neural Network) 作为生成器，生成的效果高度接近真实，达到了肉眼难以分辨的水平。Texture Multiplier 将使得美工人员可以快速制作美观的大片面积材质，不再给人一种“你这材质复制粘贴的吧！”的感觉……

而 Super-Resolution（超分辨率）则听起来更为科幻。记不记得《谍影重重5》里的情节：CIA 特工在雅典宪法广场上寻找伯恩，用模糊的定格画面，“放大、增强！”(Zoom, enhance)，然后就获得了一张特别清晰的照片，确定了目标？

其实过去根本没有这种高科技……至少在《谍影重重5》拍摄期间还没有，直到最近才有类似的出来。前不久 Google 的大脑团队实现了将 8x8 像素分辨率的，极度粗糙和颗粒化头像，还原成比较清晰的，达到了 32x32 分辨率的头像，而英伟达也在做类似的事情。

该公司研究者采用的具体训练方法（注意：和其他机构方法类似，可作参考），是先把大量的高清晰度照片“缩小”(downscale) 到非常低的清晰度，仅保留非常有限的特征，同时另外把这个降级过程中损失的特征保存下来。

采用这种方式处理了大量的高清图片之后，研究者获得了海量损失掉的特征。他们将这些特征整理合成一个“特征规律库”，就像辞典一样，意图在于告诉神经网络：再去“放大” (upscale) 图片的时候，按照这个辞典去操作。当然，具体操作起来比这个口头叙述的流程复杂得多，这个卷积神经网络模型需要数天的时间才能完成训练。

在此前的测试中，Google 大脑团队的同类技术能够成功还原 90% 被打马赛克的人脸，算是一个十分惊人的成绩。而英伟达则不满足于低清晰度，希望追求更“感人”的分辨率。艾德斯登告诉 PingWest品玩（微信公众号：wepingwest），该公司已经在实验室中实现仅花“很快”（数秒）的时间将 1K 分辨率重组为 4K 分辨率的高清照片。

这种技术能为游戏带来什么改观？英伟达期待它能够在未来，让游戏在更小容量的基础上，显著提高材质的清晰度和视觉效果。举个例子：在射击游戏中，当玩家举起狙击枪，瞄准镜里能显示出更清晰的远处画面和材质。

不光是英伟达，Google 旗下的英国人工智能技术公司 DeepMind，也在考虑用神经网络在游戏上搞点事情——当然如果你有印象的话，过去曾经传出人工智能在《打砖块》、《星际争霸》、《毁灭战士》乃至于围棋上碾压人类的消息，大多都是 DeepMind 搞出来的……

该公司在去年训练了一个名叫 WaveNet 的人工智能，让计算机生成的语音和人类原声越来越难以区分。WaveNet 和过去的串联式语音合成、参数式语音合成不同，将语音的原始数据（波性文件）细分到了以 1 毫秒为单位的区间，在每一个区间之间都采用递归神经网络 (Recurrent Neural Network) 和卷积神经网络进行预测学习。

最后， DeepMind 用 Google 自家的 TTS 语音转文字（目前世界上得分最高的该类技术）数据集进行测试，比 Google TTS 的得分高了 10 个百分点——但将 Google TTS 与人类原声之间的距离缩短了一半还多。

虽然玩游戏的时候，基本没人会特别仔细地听每一句对白，但不意味着开发者应该在这方便节省。WaveNet 将会成为游戏开发者的福音，“想象一下，当你需要调整剧情的时候，可以用计算机生成配音，不必再花钱请配音演员回来重录，甚至完全不用配音演员。”卡坦萨罗称。

你可以到 WaveNet 的网站上试听一下效果，跟真人声音差距真的很小。

好吧，现在 AI 有了生成声音、视觉材质等元素的能力，接下来呢？

就在上周，游戏开发公司 Nival 宣布了一个振奋人心的消息：他们给 2015 年发售的在线即时战略游戏《闪电战 3》开发了一个神经网络决策 AI：Boris。

在一则演示视频中，Boris 显示出了“风筝”敌方单位的能力（指吸引敌对目标，带其到处乱跑以打乱策略的行为）；还可以在明显具有劣势时消极应战而非拼死顽抗，以起到保存火力的目的；当战场中有新的敌人加入，Boris 会自动分配部队火力到不同的目标上，也会根据敌方火力级别，自动指挥士兵坐上炮台，而不是傻站在地上，用步枪拼坦克。

更有趣的是，当双方对抗占点时，Boris 会选择性忽视那些挡路的残血敌军，优先抢点再等待机会击杀——这一特征显示出了 Boris AI 对不同奖励 (reward) 级别的理解，能够优先追求与全局获胜关系更大的奖励。

Nival 明确表示 Boris 没有使用游戏内核的任何地方数据，只使用对玩家可见的战场情况，每几秒钟进行一次决策。Boris 的更多技术细节暂未公开。

在游戏开发中应用 AI 技术，还有很大的想象空间。

去年，OpenAI 用《侠盗猎车手5》开发出了一个名叫 DeepDrive 的“自动驾驶模拟器”。由于游戏内部的车辆行驶数据应有尽有，OpenAI 发现其实可以用游戏数据来训练自动驾驶系统。虽然后来研究者删除了与该模拟器有关的内容（这里有一个 Twitter 上的视频演示，这项技术所属的项目官网还在），该事件还是令人印象深刻，它赋予了人们审视 AI 和游戏之间关系的新视角。

像《侠盗猎车手》这样的开放世界游戏，开发公司花费多年时间设计了大量的任务关卡，但最快的玩家不出几十个小时就能玩完全部的内容，继而希望获得更多的内容。然而开发公司要花更多精力在下一款游戏上，无暇顾及上一代（实际上开发公司 R 星的做法是用一个相对较小规模的团队维护游戏，继续添加新的在线游戏模式）——未来，AI 会不会获得生成任务、关卡、剧情的能力，以至于可以独立完成一个完整的游戏？

卡坦萨罗认为那样的未来会很棒，但应该只存在于设想阶段，“我觉得设计关卡和任务最难的地方在于，你怎样能让新关卡和任务足够有趣，这是目前 AI 还不能取代设计师的地方。你可以让 AI 生成对白，生成材质，但将对白、视觉、机制和剧情进行有序、有趣的拼接，它还做不到。我想可能有些幽默只有人懂。但我可以想象 AI 未来能够辅助设计师更快推出新的关卡和任务，那很将令人期待。”

聊到这里，我倒是有点担心了。

你说，AI 设计的游戏，会不会把玩家虐成狗？没准 AI 早就想在模拟环境里先感受一下，取代和虐杀人类是一种什么样的感觉吧……？