从原理鉴别谷歌阿法狗是萌狗还是恶狗？

2016年3月9日，是一个人类历史上值得铭记的里程碑。谷歌人工智能AlphaGo，在5番棋中以1：0战胜了人类顶级围棋棋手李世石，随后几天迅速3胜，开启了人工智能全新时代。

中国网友将AlphaGo戏称为阿法狗，我们不禁要问，阿法狗为什么这么聪明，它到底这是一只萌狗还是恶狗？

围棋因为其复杂的变化，不可穷尽的计算一度让人工智能裹足不前，而AlphaGo的设计者的突破在于，他们赋予AlphaGo并非是“计算围棋的能力”，而是“学习的能力”。

这里不得不提到一段视频，是阿法狗的设计者哈萨比早期的一次演讲。据说，谷歌因为看到这个演讲，立即火速收购了哈萨比的DeepMind团队。

因为头条不支持腾讯视频，所以有兴趣的朋友请在腾讯视频自行搜索以下标题

Demis Hassabis（DeepMind CEO）人工智能演讲

在视频之中，哈萨比阐述了其基本原理，即“目标+行动+观察”。见下图，哈萨比认为“这是所有哺乳动物的学习方式”。

即在一个封闭规则的环境中，AI首先被赋予一个目标（游戏比分最大化），并且能够观察到封闭环境的全貌（视频游戏的全部像素，包括比分）。基于此，AI知道了“这个世界是什么样的，什么结果是我的目标”。然后，再赋予AI行动的权利，AI可以操控游戏，通过观察获得结果反馈（左右移动，击中得分或GamaOver）。

然后，很简单，就让AI自己去一遍一遍玩游戏，通过不断的“尝试-失败-再尝试”，AI逐步建立局面价值分析，知道了“什么样的局面对我有利”。例如在小蜜蜂游戏中，价值分析就是“我的子弹距离敌人越近对我越有利，敌人的子弹距离我越近越不利”。在价值分析的基础上，它有了行动的原则和指引，在行动中开始尝试躲避敌人子弹，对敌人发射子弹，甚至计算提前量，一击致命。

听起来好像很简单？的确如此，越简单的东西越不可被战胜。仔细想想，我们人类的智能，不就是“趋利避害”这么简单吗？

一句话总结，阿法狗的基本原理是“封闭规则环境中，被赋予确定性目标，通过行动-观察不断学习改进的神经网络”。

了解了阿法狗的基本设计原理，我们人类对于阿法狗的一些“迫害幻想”可以停一停了。

比如“阿法狗会不会故意输一局”。阿法狗能够观察的封闭世界只有“围棋”，并且它的“目标”是“赢得围棋”，所以它不会做出超越目标的事情。不排除阿法狗二代被赋予了新的目标“赢得围棋并且尽量让人类有面子”，那么它的行动策略就会改变为与人类激烈厮杀两赢两输，然后在最后一局险胜。

比如“阿法狗会不会很快变成天网”。这需要同时改变阿法狗的“封闭规则环境”和“目标”，让它能够观察到人类世界，目标变为“统治世界”。首先没有人会蠢到给阿法狗设定这样的目标，即便如此，由于人类世界规则是开放的，而且是未知的，阿法狗的学习量将暴增到全世界的硬件都无法承载的地步，也没有虚拟环境让阿法狗左右互搏高于人类，所以臣妾办不到，人类还很安全。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。