打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
从原理鉴别谷歌阿法狗是萌狗还是恶狗?

2016年3月9日,是一个人类历史上值得铭记的里程碑。谷歌人工智能AlphaGo,在5番棋中以1:0战胜了人类顶级围棋棋手李世石,随后几天迅速3胜,开启了人工智能全新时代。

中国网友将AlphaGo戏称为阿法狗,我们不禁要问,阿法狗为什么这么聪明,它到底这是一只萌狗还是恶狗?

围棋因为其复杂的变化,不可穷尽的计算一度让人工智能裹足不前,而AlphaGo的设计者的突破在于,他们赋予AlphaGo并非是“计算围棋的能力”,而是“学习的能力”。

这里不得不提到一段视频,是阿法狗的设计者哈萨比早期的一次演讲。据说,谷歌因为看到这个演讲,立即火速收购了哈萨比的DeepMind团队。

因为头条不支持腾讯视频,所以有兴趣的朋友请在腾讯视频自行搜索以下标题

Demis Hassabis(DeepMind CEO)人工智能演讲

在视频之中,哈萨比阐述了其基本原理,即“目标+行动+观察”。见下图,哈萨比认为“这是所有哺乳动物的学习方式”。

即在一个封闭规则的环境中,AI首先被赋予一个目标(游戏比分最大化),并且能够观察到封闭环境的全貌(视频游戏的全部像素,包括比分)。基于此,AI知道了“这个世界是什么样的,什么结果是我的目标”。然后,再赋予AI行动的权利,AI可以操控游戏,通过观察获得结果反馈(左右移动,击中得分或GamaOver)。

然后,很简单,就让AI自己去一遍一遍玩游戏,通过不断的“尝试-失败-再尝试”,AI逐步建立局面价值分析,知道了“什么样的局面对我有利”。例如在小蜜蜂游戏中,价值分析就是“我的子弹距离敌人越近对我越有利,敌人的子弹距离我越近越不利”。在价值分析的基础上,它有了行动的原则和指引,在行动中开始尝试躲避敌人子弹,对敌人发射子弹,甚至计算提前量,一击致命。

听起来好像很简单?的确如此,越简单的东西越不可被战胜。仔细想想,我们人类的智能,不就是“趋利避害”这么简单吗?

一句话总结,阿法狗的基本原理是“封闭规则环境中,被赋予确定性目标,通过行动-观察不断学习改进的神经网络”。

了解了阿法狗的基本设计原理,我们人类对于阿法狗的一些“迫害幻想”可以停一停了。

比如“阿法狗会不会故意输一局”。阿法狗能够观察的封闭世界只有“围棋”,并且它的“目标”是“赢得围棋”,所以它不会做出超越目标的事情。不排除阿法狗二代被赋予了新的目标“赢得围棋并且尽量让人类有面子”,那么它的行动策略就会改变为与人类激烈厮杀两赢两输,然后在最后一局险胜。

比如“阿法狗会不会很快变成天网”。这需要同时改变阿法狗的“封闭规则环境”和“目标”,让它能够观察到人类世界,目标变为“统治世界”。首先没有人会蠢到给阿法狗设定这样的目标,即便如此,由于人类世界规则是开放的,而且是未知的,阿法狗的学习量将暴增到全世界的硬件都无法承载的地步,也没有虚拟环境让阿法狗左右互搏高于人类,所以臣妾办不到,人类还很安全。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
阿尔法元(AlphaGo Zero)能够完全自主学习并超越人类,会对人类产生威胁吗?
DeepZenGo输棋了,阿法狗又上热搜了!28个人机大战的段子可以笑一年
阿法元引爆知社现象级传播,AI哭笑不得读留言
Master就是AlphaGo,AI围棋横扫人类,就问你们怕不怕!
阿法狗闹革命 | 比你聪明还比你勤奋 |阿法狗|人工智能|人机围棋大战
今日话题
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服