人机大战柯洁胜算不到一成，AlphaGo 身后的 TPU 杀伤力究竟有多强大？

一千年以后，人类已经灭绝。一堆机器人在学校上课，老师向它们展示出一张机器生命进化的树形图：「大约在一千年之前，名为 Nvidi a和 Google 的人类公司制造出了深度学习专用处理器的原型，并展开了激烈的竞争。这两个原型处理器，就是我们现在这些机器生命的进化之根……」

这是一个段子，却也从一个侧面说明了 AI 芯片对于人工智能发展的重要性。

- shenzhenware -

明天，升级版「AlphaGo 2.0」将再次对战人类顶级棋手，这次是排名世界第一的柯洁。在去年的「人机大战」中 AlphaGo 曾以 4:1 战胜李世石，今年年初又伪装成神秘棋手「Master」横扫围棋界，获得 60 胜 1 和的记录，包括打败柯洁。

围棋被认为是人类智慧最后的堡垒，而柯洁是目前世界上排名第一的顶尖棋手。经过前几次的对弈，人类与 AlphaGo 的实力悬殊之大已经让很多人不抱人类能获胜的希望。中国棋坛另一位重要人物，世界大赛「8 冠王」古力甚至直言，柯洁胜一局的希望不足 10% 。

在去年的 Google I/O 大会上，谷歌就曾宣称 AlphaGo 之所以能这般所向披靡，是因为有一款「秘密武器」，那就是 TPU（Tensor Processing Unit），一款专为谷歌深度学习系统 TensorFlow 定制的 AI 芯片。下面，深圳湾就带您一起解开有关 TPU 的秘密。

▎谷歌的一篇论文，揭秘 AIphaGo 背后的「秘密武器」

早在 2006 年，谷歌就在考虑为神经网络构建一个专用集成电路（ASIC）。 2013 年随着数据量的急速膨胀，提高计算能力的需求开始变得更加迫切。

2015年 11 月，谷歌开源了其王牌机器学习系统 TensorFlow，次年 3 月，应用了 TensorFlow 深度学习系统的 AlphaGo 在「人机大战」中一战成名，也使得也使得这款 AI 学习系统及其硬件基础 TPU 声名远播。

作为一个云计算硬件和软件系统，TPU 是专门为机器学习而设计的芯片，其出现的使命在于加速谷歌人工智能落地的速度。其第一代 TPU 被 AlphaGo 人工智能系统用作其预测和决策的基础，可提供高达每秒 180 万亿次浮点运算的性能，大大加速了对单个大型机器学习模型的培训。

不久前在备受瞩目的 Google I/O 2017 开发者大会上，谷歌又推出了第二代 TPU 升级版本，它比以往任何的 TPU 运行得都要快，而且可以加速训练和运行 ML 模型。

而上个月，谷歌还专门发布了一篇论文，公布了 TPU 一些相关的技术细节，并直接将矛头对准了 AI 芯片巨头英伟达，称：「TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍」。

TPU 内部架构

我们先来看看这篇论文谈到的一些有关 TPU 的要点，需要提及的是，下列数据是基于谷歌自己公司的标准测试得出的：

· TPU 是一种 ASIC，需要先用 GPU 训练神经网络，再用 TPU做推断。

· TPU 没有与 CPU 密切整合，而是设计成了一个 PCIeI/O 总线上的协处理器，可以像 GPU 一样插到现有的服务器上。

· 在推断任务中，TPU 平均比英伟达的 Tesla K 80 GPU或英特尔E5-2699 v3 CPU速度快 15 至 30 倍左右。

· 一个 TPU 的 MAC 是Tesla K 80 的 25 倍，片上内存容量达到 K80 的 3.5 倍，而且体积更小。

· TPU 的功耗效率（performance/Watt，每耗电 1 瓦的性能）比 GPU 和 CPU 高出 30 至 80 倍。

· 如果对 TPU 进行优化，给它和 K80 一样大的内存，他的速度能比 GPU 和 CPU 高 30 - 50 倍，公好效率高 70 - 200 倍。

——『In-Datacenter Performance Analysis of a Tensor Processing Unit』

这篇论文将在今年 6 月正式发表于多伦多举办的计算机体系结构国际研讨会（International Symposium on Computer Architecture, ISCA）上。传言谷歌也曾考虑像微软一样用 FPGA，因为开发起来更加灵活。但是经过测试之后发现速度提升不够。

黄仁勋在 GTC 大会上展示新品

▎谷歌 VS 英伟达，一场看似硝烟弥漫的战争，实则各有未来

在谷歌的影响下，其他科技公司也陆续看到了 AI 定制化芯片未来的发展潜力，至今已有数十种类似的定制化 AI 芯片陆续问世。不仅如此，英特尔、微软、三星也纷纷入局，这让近年来在深度学习领域享有支配性地位的芯片供应商 Nvidia 倍感压力。

为了做出反击，Nvidia 也开始加强其新推的 GPU 芯片的定制化和专业性。在不久前英伟达 GTC 大会上，Nvidia 发布了基于新一代图形架构 Volta 的 Tesla V100 。特斯拉 V100 配备了 640 个 Tensor 内核，能提供提供了高达 120 teraflops 的、惊人的深度学习能力，它们是专为运行深入学习网络中使用的数学运算而设计的。

作为芯片制造商的大客户，谷歌揭幕 TPU 对 CPU 巨头英特尔和 GPU 巨头英伟达来说都是不小的商业压力。除了英伟达，英特尔也在去年推出了适用于深度学习的处理器架构和芯片，意欲扩张当下的市场份额，抵挡谷歌带来的冲击。但是目前看来，「定制芯片」的需求可能比他们预计还要更深。

但是，也许谷歌根本并无意参与这场竞争。GPU 巨头英伟达 CEO 黄仁勋就曾告诉『华尔街日报』，两年前谷歌就意识到 GPU 更适合训练，而不善于做训练后的分析决策。谷歌打造 TPU 的动机只是想要一款更适合做分析决策的芯片。这一点在谷歌的官方声明里也得到了印证：TPU 只在特定机器学习应用中作辅助使用，公司将继续使用其他厂商制造的 CPU 和 GPU。

事实上，训练神经网络模型，还是离不开 GPU 和 CPU。而对于 CPU 制造商而言，真正的挑战是提供在考虑到能耗和效率的前提下，具有极高推理性能的芯片。TPU 是一款推理芯片，其出现并不是为了取代 CPU 或者GPU，而是作为一种补充。

尽管如此，由于谷歌 TPU 论文引起的反响太大，迫使感受到威胁的英伟达很快做出的回应。英伟达回应说，GPU 在机器学习的推理（inferencing）方面相对于 TPU 有一些优势，还能用于机器学习中神经网络的训练。英伟达的 GPU 更通用一些，谷歌的 TPU 则比较专注于一个点，应用场景十分单一。

英伟达对谷歌在论文中进行的对比细节有些意见，黄仁勋表示，GPU 的通用性高一些，先是肯定 TPU 在深度学习的张量处理领域有一些重合，随后通过一些细节来论证 GPU 相对于 TPU 的优势，这也算是不大不小的撕逼吧。

此次 AlphaGo 再次对战柯洁，也是对谷歌 TPU 过去一年改进的一次检验。无论这场比赛结果如何，对于 TPU、对于 TensorFlow，乃至对于人工智能都不会是一个终点，而是一个崭新的起点。

正如 DeepMind 创始人 Demis Hassabis 曾经说过的：「AlphaGo 的成功暗示了将 AI 应用于广泛任务和领域的可能性，也许我们在可以很多领域找到人类专家无法考虑到的的解决方案。」希望 AlphaGo 背后的技术，能够真正造福人类。（撰稿：谈喆@深圳湾）■

· ● 热门活动 ● ·

● ● ●

深圳湾（公众号 ID：shenzhenware）将持续关注物联网、人工智能、机器人、无人机、智能驾驶、智能家居等领域的新锐产品和初创团队，欢迎联系我们。微信私人客服：小炫（ID：warexx）。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。