郭强：从Alphago看人工智能发展

今天，谷歌的围棋程序Alphago战胜了人类围棋棋手李世石九段。

最早期的人工智能其实只是自动化，就是将人类所做的一些事情进行联系起来，自动化流程运转。这样人类可以从烦劳无趣的机械化的工作中解放出来，提高效率，减少劳动量。自动化流程其实应该说并不属于智能，因为自动化中的所有环节都是人类开发出来的，也就是所有逻辑因果关系都是人类已经开发好的，然后制造成机器自动运行。

自动化在现实生产中运用最多，但并不属于智能范畴，因为自动化并不自我建立解决问题的能力。自动化是人类的辅助系统。目前金融系统的程序化交易多数也属于自动化系统，或者说复杂自动化系统，智能作为人类的辅助系统，并不能独立决策。

真正的人工智能应该属于国际象棋领域战胜国际象棋大师的深蓝。深蓝的算法原理是穷举法。我们小孩的时候都玩过井字棋，三个方格连成一线就算赢，由于棋盘狭小，所以人类的智能很快就会发现最优解。也正是因为如此，井字棋只在小孩子之间流行，大一点的孩子发现最优解之后就不喜欢玩了。在数学理论上，任何事情都存在最优解。这当然是在拥有全部信息的状态下。国际象棋只有64个位置，在深蓝的计算能力下可以进行穷举法推演出最优解。也就是深蓝每走一步棋都是把所有变化算出来的，然后选择最优的方案。这个情况不同于自动化过程，因为深蓝只知道国际象棋规则，但并不需要国际象棋的各种策略。深蓝通过穷举所有变化，最终选择最优变化。这个模式可以应对国际象棋中的全部变化。所以深蓝是人工智能。并且可以战胜人类国际象棋大师。

但对于拥有361个位置点的围棋来说，穷举法的计算量太大了，以至于当前的计算机无法达到。但可以肯定的是，穷举法的原理就决定了在国际象棋领域计算机可以击败人类。就如同井字棋游戏中知道最优解的小孩会战胜那些初学小孩一样。但初学小孩一旦知道了最优解，双方就是平手了。而井字棋的天花板也就达到了。

Alphago的研究团队对人工智能的策略做了新的改进，采用了让机器自己学习的办法——所谓“深度学习”。其实就是让机器建立一套不断完善的评估方法。机器通过对过去人类所有的棋局进行复盘和评估，学习评估方案。在对局过程中，穷举下一手棋的时候，通过评估方案过滤掉那些明显不好的招法，以便减少运算压力。这个方案其实非常类似于人类的智力——人类智力总是偷懒，人类总是在寻找一些方法偷懒，把复杂的东西简单化并建立模型，然后拿去应用到新的局面中。

Alphago的方法其实非常类似于人类经验的形成过程，所以也会带来一些新的问题。深蓝是穷举法做出的决策，所以说那个最优解是完全客观的。可以说深蓝就是国际象棋的天花板。在Alphago中，其实机器并没有穷举全部，在穷举过程中经过了筛选。这种筛选的原则是从人类对局中学来的。人是主观的。所以Alphago的评估模型也是主观的。也就是说，它完全有可能把一手好棋给过滤掉。而且这种情况理论上的概率极大。说白了，这就像人类头脑不能穷举围棋一样，Alphago也不能，它也有智力极限。所以围棋的变化在目前的局面下并没有穷尽。而国际象棋可能在深蓝时就变化穷尽了。

另一个问题就是，Alphago的能力取决于与他对局人的能力，和高手对局会提高它的评估能力。但Alphago不能够超越。谷歌研发团队的人说Alphago经常跟自己下棋。其实他跟自己下棋可能不会提高棋力，就像人类跟自己下棋不会提高棋力一样。棋力只能在不断与他人对局中提升。所以Alphago的最高水平其实是当时人类的最高水平，这可能就是谷歌的人说：“Alphago和李世石下棋的胜负是一半对一半。”可见他们是知道这个问题的。

Alphago即将面临的新问题是——过度学习。如同人类棋手一样，Alphago的这个经验策略就决定了如果它跟水平低的棋手下棋，就会拉低它的棋力。低水平评估会冲淡高水平评估。而这个问题在深蓝穷举法上是不存在的。

毫无疑问， Alphago是人工智能领域的一个重大突破，但比起真正的人类智能来说还差得远。

棋类游戏在博弈模式中属于完全信息静态博弈，是最简单的博弈模式。这类博弈比较容易通过算法计算出来。如果是不完全信息动态博弈，这种博弈要猜测局面信息，猜测对手意图等等，目前的图灵系统的人工智能似乎还没有办法从理论上给出应对策略。更何况人类还存在联合盟友打击对手之类的复杂博弈，机器更是无法解决。如果想要体会更复杂的不完全信息动态博弈游戏，可以去玩电子竞技（如LOL，坦克世界等），更进一步可以尝试一下专业兵棋。这个领域的人工智能简直弱爆了。

即使是Alphago这种经验学习模式，如果应用于更为复杂的决策系统中也不会有很好的效果，比如炒股。人类是通过很多市场以外的东西进行理解分析来判断市场的，市场老手有很多经验积累，而这些经验是不可复原的（围棋谱是完全复原的）。很多股市中的经验老手，并不太懂各种经济原理，照样可以赚钱。但Alphago如果进入股市，是不能够输入这些人的经验的，它只能和人类一起慢慢成长。这样看来，如果说培养一个人类炒股能手需要10年，那么人工智能的炒股专家也同样需要10年。这里面还不包括很多信息无法输入的问题。

Alphago带来了一个哲学思考——什么是逻辑因果关系。人类在工作生活中运用大量的逻辑因果关系，但这些因果是真实的吗？还是仅仅是人类的主观假设而已。比较新的理论认为，一切因果关系都是假象，其实所有的事情都是偶然的。Alphago的模式中显然没有建立因果关系的逻辑，他只是评估局面，然后筛选出那些占优的。所以在Alphago那里，每一手棋之间是没有任何因果逻辑的。但人类会认为下棋是有逻辑的。那么因果逻辑到底存在吗？

或许因果逻辑存在与否并不重要，重要的是我们怎么理解这个问题？我们回到可以穷举的世界里，国际象棋棋手通过因果逻辑假象推理出下一步棋的走法，而这一步棋在可以穷举的深蓝那里一定是被穷举过的。所以在这个世界里，穷举优于逻辑推理，人类所有的灵光闪现都在计算机穷举的范围中，那么灵光闪现也就没有价值和开创意义了。但在不可以穷举的世界里，因果逻辑就是一个重要手段。尽管因果逻辑是个假象，但人类使用这种假设的东西会引导我们灵光闪现，发明出新的东西，推动人类进步。而这一点，不能产生因果逻辑的机器还距离很远。

人类可以产生发明创造。但从经验评估角度来看，一切发明创造其实都是一种偶然失控或者谬误，因为发明超出了经验范畴。梳理到这里，可以把智力理解为：

智力 = 一定量的穷举能力（计算能力）+ 一定量的经验（评估能力） + 一定量的逻辑能力（推理出前所未有的东西）。

2016.03.09

【栏目名称】一千零一夜

【栏目缘由】创建于小一.大书悦读会建群第101天，一步一个脚印，走向第1001天。

【栏目内容】用文字定格小一.大书悦读群里面滋养心灵的愉悦，每次1001字左右。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。