柯洁说:后两场全力以赴,之后不再与AI对弈

23日14点52分,一盘围棋在乌镇互联网国际会展中心收官,黑子以四分之一子输给白子。

这是AlphaGo和柯洁的第一场正式比赛,猜先后,柯洁先手执黑,AlphaGo执白,代AlphaGo执棋的人肉臂是DeepMind资深研究员黄士杰博士。

WechatIMG83

与之前AlphaGo在网上化身Master连续60场不败的快棋不同,这一场比赛的采用的是传统规则,每人有3小时的时间。

在这场比赛的终盘,柯洁的剩余时间仅13分钟,AlphaGo的剩余时间却是1小时29分钟。但最终结束时柯洁仅以1/4子小负,并不像之前许多人悲观预测的那样“惨败”。

WechatIMG86

对于一场被极度关注的赛事,柯洁在比赛刚开始时的表现却显得比较轻松。

他系一条天蓝色领带,正逢乌镇梅雨时节,这条领带让他看起来有一点小清新。虽然还不到20岁,但是比赛中的柯洁总让人感觉不到他其实还是个少年。

01udscudsgcuidsgcuidsc

柯洁和Alpha Go其实有一些相似之处,就是他们都很擅长学习。在第八手棋的时候,柯洁就主动“点三三”。

“三三”是吴清源的名局,今年一月AlphaGo化名Master疯狂对战时常用这一招式开局,现场解说的华以刚描述这种下法的时候这么说:太神奇了,也评论不出是好棋还是坏棋,因为根本就没见有人这么下过。柯洁很大胆的学了这招,并反用在了AlphaGo身上。

尽管最后以很小的差距输给了AlphaGo,柯洁还是认为AlphaGo实在是个太厉害的棋手。这一次的AlphaGo跟上一次人机大战版本显得特别不一样,上一次还像点人,但这一次就完全不像了。

如果有一件事是柯洁从AlphaGo身上学到的,那就是:没什么棋是不能下的。

第一场比赛结束后的柯洁稍显落寞,甚至还苦笑了一下,其实在很早的时候就知道自己要输了。但是他说后两场仍会全力以赴,因为这将是他和人工智能进行的最后两场比赛了,此后,他只和人类对弈。

WechatIMG34

为什么是今年,AlphaGo能在现在战胜人类?

深蓝在国际象棋领域战胜卡斯帕罗夫已经过去了20年,为什么AlphaGo在这么多年之后才总算能有望战胜人类。

其中一个重要的原因是,国际象棋的所有可能性只有 10 的 46 次方,而围棋的可能性是 10 的 170 次方之外。

在深蓝获胜20年之后计算机领域几乎没有停滞过的摩尔定律为AlphaGo的出现提供了算力基础。

另一方面,人工智能的算法在过去的20年中也出现了变化。最典型的是从双层神经网络进化到了多层神经网络,而在反向传播的基础上多层神经网络的自主学习实现了可能。

简单来说,即便是在1997年人类就已经制作出了AlphaGo所使用的蒙特卡洛搜索算法,我们也不足以制造出足够能运算这一算法的计算机。

早在1952年,计算机专家艾伦·图灵就编写了世界上第一个可以下国际象棋的计算机程序。但当时的计算机算力不足以支撑这个程序,图灵用纸和笔模拟验算,半小时下一步与同事对弈。

算力的改进为AlphaGo提供了比之前的所有AI更快的思考速度,算法的改进则为AlphaGo提供了比之前的任何AI都更先进的思考方式。

两者共同实现的就是让AlphaGo能够在正常围棋赛的时间内,计算出下一步落子的位置。这才是让AlphaGo能够在今天,在此刻有可能战胜人类的原因。

WechatIMG31

AlphaGo在这一局比赛中,剩余的时间很长,但赢得的目数不多。AlphaGo在现有的算力上,算法依然有改进的空间。这也许是因为之前AlphaGo都在下快棋,还没有习惯“多思考一会儿”。

赛后举行的发布会上,柯洁在回答提问时表示:“要让我自己当嘉宾来点评的话,我要说AlphaGo下得很好,有很多地方值得我们棋手去学习。我也深受AlphaGo的影响,没有什么其实是不可以下的,可以大量去创新,开拓自己的思维,是很值得我们去学习的。”

那么,AlphaGo是如何赢得比赛的?

AlphaGo的基础原理在很多地方已经讲过了——既然围棋的可能性有 10 的 170 次方之多,那么就不可能通过穷举的办法来预测对手的每一步行动。

但是,现实中的围棋对弈也不需要这样预测所有的可能,只需要综合围棋的一般下法、经典的棋谱、对手的下棋风格,猜出“你此刻的对手打算怎么走”就可以克制对方了。

nsicbdusbcdosc

按照此前的介绍,AlphaGo获取棋局信息后,会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。

在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

这套价值网络能够近乎准确地判断出一颗棋子对周围环境的影响力。一个棋子的价值很难衡量,但是如果能把棋盘上所有的棋子当做一个整体来考虑时,就有拥有了把控大局、把局部影响力转换为全局优势的能力。

正是这种全局观让柯洁输得特别“没脾气”,柯洁说这是一种“想发力却无处发力的无力感”。

在围棋这种人类发明的博弈游戏中,人工智能有两个先天优势是人类所不能比拟的:

1.人工智能可以背下所有的棋谱和看完对手的所有比赛;

2.人工智能没有受到正统围棋比赛的“套路”影响,可以在下法上更加出其不意。

但是随着AlphaGo不断进行公开比赛,第二点优势会逐渐丧失。柯洁在这一场比赛中展现了针对人工智能棋手惯用下法的一些策略,实际效果不俗,让这场比赛看起来几乎“势均力敌”。

而很多人注意到,这一局比赛中“AlphaGo判断自己胜定后,在小官子阶段有退让”这并不一定是AlphaGo变得人性化了。而是AlphaGo在“学习”的过程中,连人类的这种下棋的“礼仪”也学走了。

这有可能,反而是战胜AlphaGo的一个突破点。

成为最顶尖的围棋高手,然后呢?

柯洁在这次三番棋后不会再和AI对弈,那AI呢?

从第一次人机大战到第二次,AlphaGo的变化很大。

最初是学习大量的棋谱,从中寻找规律和经验,再进入更深度的学习后,新一代的AlphaGo则逐渐摆脱人类思维,通过无数次的自我博弈进行胜率优化。棋谱的数量有限,但是通过自我博弈,AlphaGo却能得出更多新的策略,就是常被大家认为“什么都敢下”的棋风。

这也是为什么AlphaGo被柯洁形容“越来越不像人”。AlphaGo最初的学习的参数是以人类棋谱为基础,而新一版AlphaGo则增加了强化学习的比重,也就是训练的数据大多通过自我对弈产生。如此更新迭代、循环往复,在价值判断上的就会越来越形成自己的风格。

dubcduwbcdiwcndw

可以说正是千万次的战胜了自己,AlphaGo才能在棋盘上战胜了柯洁一次,而柯洁就是人工智能在棋盘上能遇到的终极敌人。

在学习方式上越来越接近人脑,这确实达到了DeepMind当初想用算法提炼智慧的目的。

除此之外,新版AlphaGo在计算能力方面上的提升也是巨大的。DeepMind的CEO Demis Hassabis在赛后的发布会上告诉大家,目前的AlphaGo通过云端单TPU运行,TPU是专门为机器学习而设计的处理器。与去年3月与李世石的比赛时的版本相比,这一代AlphaGo的计算能耗仅为过去的十分之一。

如果真的赢得这场比赛,AlphaGo的下一个目标会是什么,Demis称要把悬念留在在不久后揭晓新一代AlphaGo的时候。

但是这场三番棋才刚刚开始,AlphaGo距离自己完胜人类还要经历25日和27日两场。虽然大多数预测都认为反转局势机会渺茫,但是如果能在比赛中摸索出AlphaGo的一些套路,也许可以剩下两场“挣扎”绝处逢生。

棋手若还能稳坐,旁人又何必多言。加油呀,代表人类的最终Boss。

更多有趣好玩的内容 尽在品玩微信公众号