AlphaGo这只小狗狗,怎么就成了“阿老师”?

这是一篇写给你姥姥的科普贴

AlphaGo打败李世乭的时候,柯洁说“它赢不了我”;

AlphaGo赢了柯洁的时候,他说AlphaGo进步的速度太快,自己还是想跟人类下棋

态度巨变背后,柯洁只是从19岁到了20岁,小狗狗却已在不断的训练中变得愈发凶猛。

柯洁与AlphaGo的对阵现场(图源:The New York Times)

柯洁与AlphaGo的对阵现场(图源:The New York Times)

一方面,小狗狗自己一直在不断学习和训练,让脑子变得越来越聪明。另一方面呢,狗爹DeepMind还给小狗狗投喂了新硬件,让它身体倍儿棒、脑子能转得快点儿。

“小狗狗”的修仙之路

一开始,狗爹DeepMind教了小狗狗两样武器:策略网络(Policy Network)和价值网络(Value Network)

策略网络是要让小狗狗知道,下一个棋子最可能落在哪些位置

毕竟围棋棋盘这么大,一共19*19个点,每个点上又有白子、黑子和无子三种可能性,整个决策过程会出现的可能性是炸裂型的

WEIQI

如果小狗狗真的每一步棋都把情况都算尽,按它脑子现在的运算速度,不只会把对面的柯洁熬成一个老柯,也得把自己活活耗成一条老狗

所以,需要缩小计算范围,那些不太可能出现的情况咱就先不管了。

学习方法嘛,第一步可以算是“题海战术”——给小狗狗投喂大量人类顶级棋手的棋谱数据,让它记住最经常出现的套路。

(图源:The Atlantic)

(图源:The Atlantic)

价值网络可以帮助小狗狗判断的是:按照策略网络里会出现的那些可能性棋子落在特定位置的胜率会怎么样。

根据策略网络能算出来的可能性,小狗狗还可以用同样的方法,更深入地预测接下来可能会发生的走棋。小狗狗不会真的把所有可能性算完,而是举出下一步棋的几种主要可能,再算出来它们在后续各种可能性中的平均胜率。

但是,如果策略网络算漏了几种厉害的棋可怎么办?小狗狗眉头一皱,打算在已经原本想放弃的可能性中,尽可能地多挑几个都算一下试试。

蒙特卡洛树搜索的步骤(图源:wiki)

蒙特卡洛树搜索的步骤(图源:wiki)

最后,小狗狗会所有的结果放在一起比较,来决定到底要听谁的。

小狗狗也会找机会跟人类高手(比如李世乭)互相殴打。切磋之后,狗爹DeepMind会带着小狗狗回伦敦老家,研究这次比赛的数据,继续闭关修炼。

“阿老师”的重现江湖

有一天,武林上突然出现一位自称Master(大师)的人物,通过网络嗷嗷跟人类顶级玩家过招,且从来没有输过。

事后大家才知道,它就是小狗狗。不过,据狗爹DeepMind讲,小狗狗进化成阿老师啦,以前三个月的事儿,现在他们一星期就可以搞定!

DeepMind创始人哈萨比斯(Demis Dassabis)

DeepMind创始人哈萨比斯(Demis Dassabis)

阿老师真身跟柯洁对弈的第二天,DeepMind就介绍了如今阿老师的功力。简单说就是:阿老师可以让小狗狗3个子儿。

从大脑发育程度上讲,小狗狗只有12层神经网络,而成年后的阿老师已经有40层了。无敌太寂寞,阿老师已经开始减少对人类棋谱的依赖,更多地依靠深度学习、自我对弈来修行了。

阿老师聪慧起来,算法也就更高效。所以,阿老师需要进行的运算量,只是勤劳但是笨拙的小狗狗的十分之一。小狗狗需要耗用50个TPU(可以理解成一种提升脑力运算速度的高级狗粮),阿老师在单个TPU机器上就可以战斗。

阿老师的自我修行,也给它积累了最好的训练数据。阿老师勤劳分析自己跟自己打架之后的每一地鸡毛,通过各种复盘和回想,逼着自己找出最关键的那步棋。

“狗爹”的星辰大海

对阿老师的爸爸DeepMind来讲,跟人类玩家的战局只是训练决策的一种游戏而已。

狗爹的目标,可是大海星辰呀。在解决围棋问题的过程中,阿老师要利用策略网络来减少搜索的宽度,再利用价值网络减少搜索的深度。让阿老师下围棋,只是为了训练它深度学习、强化学习的能力,最终化身通用智能,实现人机合作,走上狗生巅峰。

决策网络和价值网络

让人类跟阿老师互相殴打,是为了让两边熟悉一下彼此,更方便合作。狗爹打比方说,阿老师其实是新的哈勃望远镜,就像人类以前可以用哈勃望远镜探索宇宙,现在也可以借助阿老师来发现新的知识。

“我不在意谁下赢围棋!”狗爹讲,“因为最终的胜利属于全人类。”

更多有趣好玩的内容 尽在品玩微信公众号