博狗体育网-博狗体育官网-博狗体育在线投注$皇冠代理网,足球投注平台,澳门足球
当前位置: 主页 > 足球新闻 >

如何战胜阿尔法围棋?

日期:2017-01-06 10:20  浏览: 次  作者:admin  来源:博狗体育网-博狗体育官网-博狗体育在线投注$皇冠代理网,足球投注平台,澳门足球
  要讲黑道先得了解一下alpha go的基本运行机制。它一共有四个大模块1.MCTS,2。快速展开网络,3。走子网络,4,估值网络。名词听着很陌生,其实不难理解。快速展开网络的功能就是对一个目前棋局做快速的展开下到棋局结束,然后程序判断是赢还是输,这是阿狗判断的一个依据。走子网络的功能是选下一步走在哪里的一些可能性。走子网络有两个选择(其实是三个),一个是通过KGS高水平对局训练出来的走子网络(SL),另一个是在此基础上通过reinforcement learning训练出来的走子网络(RL)。两个网络结构差不多,但参数不一样,RL是左右互搏来提高自己水平的,它有优点也有缺点,这里不展开。价值网络的用处是估算目前局势好不好,是基于全局输赢的判断。它是通过RL左右互搏几千万,现在可能更多,盘棋训练出来的。MCTS是阿狗用来搜索并且确切的挑出下一手是什么的算法。其它网络是基础的支撑。MCTS先挑几个有希望的下一手,然后在这些手的基础上再展开几手,这样就有一个树形结构,到达第L层时,不再用走子网络展开搜索而是直接用快速展开网络展开到底。这样就把一次模拟做完,这样重复很多次,MCTS可以通过自己的算法挑一个最好的下法,然后落子。
  这么轻描淡写的运行机制其实是建立在巨型运算之上的,这个计算不光是对弈时的运算量,更重要的是这些网络的训练需要耗费极大的运算量。更可贵的是程序员的智慧,因为里面的技术小细节可以决定网络质量,继而影响机器下棋水平。没有这些阿狗就没有今天,因此归根到底,狗是人类的朋友和宠物。
  这个运行机制是如何提高阿狗类人工智能棋力的呢?deep mind的论文里告诉大家每一个模块对胜率都有重要的影响力。比如快速走子展开网络,它的影响的可能主要是局部对杀的能力。走子网络主要提高机器的布局能力,也就是说它其实是建立在人类智慧之上的。估值网络的功效在于给机器提供一个对整盘局势的判断的依据,虽然MCTS选落子的时候,它不是唯一选择。如果算法只用它,机器棋力会下降。事实上,阿狗的算法里控制了一个平衡:exploitation 和exploration。失去平衡的机器可能要么特别有想象力但有时会发疯,要么墨守成规比较好预测。MCTS和其它模块一起运行保障机器随时以大局为重并且眼光深邃而且宽广。用围棋语言就是算路深,妙手多,大局好。
  这就很好的解释了人类高手在快棋时面临的困境和结局。通常是在一顿拼杀后不知不觉中,master已经围出一个蔚为壮观的巨大空,此为大局好;或者在大家意想不到,人类的‘棋理’通常不会考虑的地方,来一手或者犀利或者让人迷惑但又不好对付的棋,此为创意多;又有时人类想要和master拼杀,但大师总是在平稳的腾挪里,面不改色的泰然处之,此为算路深。有这三个特点,快棋里人类不崩溃才应该是新闻。它简直就是接近围棋之神的机器。
  阿狗算法里从高层总结有几个特点:1。汲取了人类的下棋直觉,通过走子网络来获得;2。算路很深,主要靠MCTS和展开网络;3。时刻以大局为重,一切以赢棋为目的;4。最后,有一定的随机和意外手段。
本文地址:如何战胜阿尔法围棋? http://www.hg0000555.com/a/zuqiuxinwen/20170106/12.html
所有文章均由博狗体育网-博狗体育官网-博狗体育在线投注$皇冠代理网,足球投注平台,澳门足球原创或网络收集,仅供学习参考之用,如有错误、侵权之处请及时联系我们修改、删除,若有转载,请注明出处!谢谢!