如果让AlphaGo去开车……

今天下午，在连胜两局之后，谷歌阿尔法狗（AlphaGo）拿下赛点，以五局三胜的成绩战胜围棋职业九段选手李世石。目前胜负已定，但是接下来几天，双方还会完成余下的两场比赛。和其他围棋比赛不同的是，这次的获胜选手因为不通情感，没有表露半点喜悦。

谷歌阿尔法狗（AlphaGo）是专门开发出来进行围棋对弈的人工智能。这场围棋竞技是机器首次与九段棋士对决，被不少人认为具有里程碑意义。一个脑洞大开的问题是，既然阿尔法狗已经如此智能，如果教会它开车，是不是比人类更厉害？

阿尔法狗为什么强？

其实人机对弈的故事并非第一个。不少人都会提起1997年IBM研制的超级电脑“深蓝”与国际象棋世界冠军卡斯帕罗夫的那场对决。当时“深蓝”在标准比赛时限内以3.5:2.5的累计积分击败了人类选手斯帕罗夫，其设计者许峰雄曾经提到，一般的国际象棋手能想到后7步就很不错了，但“深蓝”能想到12步，甚至40步远。正是计算机强于人类大脑的计算能力，让它在棋盘的全局走势上看得更远，成为取胜的决定性优势。

△象棋（上）和围棋（下）的算法图对比

简单来说，“深蓝”下棋时，会不断演算每一步落子，尝试不同方法，接着选出一个最好的结果，最后落子。这种“穷举法”对象棋而言行之有效，但是观察上面象棋和围棋的算法图不难发现，围棋的落子空间和下棋步数要复杂很多，计算堪称指数爆炸级，同样的暴力搜索对计算机而言，难以实现。

现在阿尔法狗连赢李世石3局，那么和“深蓝”相比，它到底强在哪里？

关于这个问题，车云菌请教了地平线联合创始人兼算法副总裁黄畅，具有围棋功底的他看来，阿尔法狗具有了类似人类棋手的“棋感”策略(Policy)。这在以往与人对弈的人工智能中尚未出现，因此堪称里程碑意义。

所谓“棋感”策略，类似一种决策经验。人类棋手在长期学习和磨练中，逐渐培养出的一种直觉。根据棋盘上当下的棋局分布，判断出落子的大致范围。黄畅向车云菌解释，棋感策略让阿尔法狗无需暴力分析所有方法，而是把运算能力集中到几种最可能情况，大大减少运算量。

更深一步的算法层面，黄畅对整套大框架提取了阿尔法狗的三大亮点：

第一，基于深度卷积神经网络学习获得强大的棋感策略和盘面评估能力。

第二，让两只阿尔法狗对弈，用增强学习算法持续提升棋感策略和盘面评估能力。

第三，将棋感策略和盘面评估能力进行巧妙的结合，用蒙特卡洛搜索得到对弈中的最优方案。

值得注意的是，此处提到的增强式学习是一种训练过程，并且和以往常见的监督式学习框架存在差异。监督式学习框架需要更多人工介入，如果想让机器认识杯子，就必须搜集足够多的杯子后告诉机器，由机器提取特征学习后掌握。而增强式学习，黄畅打了个比方，更像是驯兽员训练小狗，不用告诉它把抬起爪子，只要通过做对了有肉吃这种交互，积累反复尝试学会这个动作。黄畅认为，这是一种更加理想的人工智能学习模式，因为所需的人工干预更少。

到此略作小结，通过训练，阿尔法狗最终依靠全盘计算的能力获胜，但棋感的获得让它更好地发挥了全盘计算的优势。当然，也因为这位选手没有任何情感，所以在一些考验心理素质的部分，优于人类对手并略胜一筹。

如果让阿尔法狗去开车……

既然有了棋感，不免让人联想到驾控感。假如人类驾驶员面对一个弯道，操控时拧过方向盘的角度，踩下刹车的力度判断，都会包含着一种人类驾驶经验。阿尔法狗的“棋感”，有没有办法迁移到自动驾驶中去？

黄畅给出的答案是，“很有可能”。

如果用阿尔法狗“棋感”部分的算法框架训练自动驾驶汽车，应该也能在规划控制上大大提升。但是和阿尔法狗的训练过程一样，自动驾驶车的人工智能需要一遍又一遍地在各种情况下开车驾驶，通过增强式学习，直到像小狗看到食物伸出爪子一样，处理每个弯道像老司机一样自然。

在现实中，让自动驾驶汽车实地训练极其危险且成本高昂，因此需要借助自动驾驶模拟器。黄畅介绍，目前有很多做得非常不错的模拟器，只要让负责自动驾驶的人工智能在其中不断演练，也能进行学习。“打赛车电动”也能训练，这和真实路测相比更加安全高效。

BUT，就像开车不全靠是驾控感一样，阿尔法狗这项意义非凡的能力，还不足以让它完成整套自动驾驶。假如用阿尔法狗的整个框架作为底层，设计出的无人驾驶系统，未必强于人类。因为目前自动驾驶的瓶颈，在于感知部分而非控制。黄畅认为，目前自动驾驶研究的感知能力才仅仅接近技术可用，尚未考虑成本、量产等因素。

阿尔法狗拥有感知能力。在与李世石的对弈现场，它可以利用计算机视觉“看懂”19*19整块棋盘上的黑白子位置。但是和满足自动驾驶所需的算法相比，这还远远不够。自动驾驶汽车在路上行驶时，要获得360°全方位感知的能力。并且对于强光、弱光、雨雪等天气，都能从容应对。黄畅表示，这对算法提出的要求是不小的挑战，而且除了算法本身，你还要不少优质的传感器设备，此处涉及的传感器融合，又是一个大课题。

车云小结：

阿尔法狗使用谷歌云计算服务器，并通过光缆网络连接韩国比赛现场，车云菌在采访中关于运行算法的硬件仍然庞大这个问题，请教了黄畅。黄畅表示，单机还是依靠服务器只是量变，还不是这次比赛需要关注的重点，硬件发展迅速，未来在手机大小的设备上完成运算不会太远，这一点在自动驾驶汽车上也同样适用。算法上的突破才是质变，也是这次人机对弈中阿尔法狗带来的最出色表演。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。