AlphaGo 的祕密,就在于它的深度学习网络。围棋是最终极的信息公开游戏,也就是说所有的信息都摆在电脑面前,因此困难度不在于「猜测」,而是在于如何能分析看似无限的信息与可能。AlphaGo 有两个主要的网络,一个称为「策略网络(Policy Network)」,一个称为「值网络(Value Network)」。前者是由学习人类的棋谱而来,经由分析数十万个人类的棋谱,它可以选出 20 个胜率最高的下一步棋,有效地减少分析的广度。后者则是盘面优势的判断机制,计算每种不同的下法进行后,胜率的变化。如果 AlphaGo 在试走了两三步棋后,发现胜率不足的话,就会放弃这个走法,改试其他的可能。换言之,值网络可以有效地减少分析的深度。如果值网络发现所有的走法胜率都不足 20% 的话,AlphaGo 就会投降啰。这两者加起来,让 AlphaGo 在有限时间内可以做出更多棋步的运算,成为远超过去围棋程序的存在。
黄士杰博士也分享了他坐在李世石九段前对奕的心得。因为自己也是棋手的关系,他完全知道李世乭面对的压力有多大,所以他尽量不出声,也不做什么大动作来影响对方。不过他自己也是非常辛苦的:AlphaGo 所有的参数都是以 AlphaGo 自己拥有的时间为基准,如果黄需要做任何事 -- 例如上厕所 -- 的话,用的都是 AlphaGo 的时间,所以这些额外用时都是愈少愈好的。
DeepMind 团队还在分析这次的比赛,特别是输掉的第四场,要了解是程序有 bug,还是学习网络终究有限制。目前 AlphaGo 还没有下一步的计划,特别是对于大家都在谈论的挑战棋王柯洁,目前还没有这样的准备。不过考虑到 AlphaGo 的开发仅三年就有这样的成果,再加上未来电脑运算能力只会愈来愈高,如果再给 AlphaGo 一年半载的话,说不定李世石真的就是史上唯一赢过 AlphaGo 一场的人了...
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。