直击NVIDIA GTC20：AI性能翻倍黄氏定律真香

疫情阻止了全球范围内线下举办GTC，但不意味着技术的进步会停止。就在今天，NVIDIA GTC 2020中国线上大会正式拉开序幕，NVIDIA首席科学家Bill Dally亲自上阵发表主题演讲。从NVIDIA如何打造最强GPU，加速AI性能，说到正在逐步取代摩尔定律的黄氏定律。在短短一年内，GPU AI性能成倍提升，NVIDIA究竟是如何做到的？

NVIDIA首席科学家Bill Dally

打造最强GPU

一切的基础都是硬件。在安培Ampere GPU架构推出之后，NVIDIA在短短的一年内其运用到了你所能了解的产品中。从具备处理海量计算性能处理难题的Ampere A100 SXM，到小到可以放进玩具的嵌入系统Jetson，安培架构已经无处不在。

以DGX为例，在一个DGX机箱中可以放进8个Ampere GPU，多个DGX机箱可以塞进一个机架中，并与Mellanox交换机一起，组合成那些世界上性能最强大的计算机集群。

但是硬件本身不能解决世界上的难题，它还需要借助软件来应付计算中遇到的严苛问题。事实上，将软件和硬件结合已经成为NVIDIA推进技术前进的主题，即便GPU性能过分强大，NVIDIA也不再以单纯的硬件公司自居。

解决计算问题本身则需要围绕CUDA核心展开，NVIDIA开发了一系列软件帮助研发人员挖掘CUDA性能。例如在面对深度学习的时候，NVIDIA提供了cuDNN、Tensor RT帮助简化深度学习实现的过程。而面对诸如医疗、生产、汽车，NVIDIA都提供了相对应的软件和硬件给予不同的解决方案。

NVIDIA Ampere A100不仅是世界上最大的7nm芯片，具备540亿个晶体管，同时还集成了第三代Tensor Core用于深度学习加速。如果你曾经感受过GeForce RTX 30系列游戏显卡DLSS带来的流畅游戏体验，那么正是GPU中的第三代Tensor Core帮助GPU完成了游戏帧率的加速运算。而诸如DLSS技术的预算也仅仅是Tensor Core运用的冰山一角。

NVIDIA Ampere A100通过对新数据类型支持，从获得而比上一代提升20倍的性能提升，并在原有推理性能增益基础上，通过结构化稀疏支持获2倍的的效率提升，最终使得A100在诸如BERT对话式AI模型中推理吞吐量达到CPU的249倍。

更重要的是A100的执行效能非常高，在全球超算Green 500节能排名中NVIDIA最新的DGX SuperPOD位居榜首，而全球TOP 500超算排名第五的Selene同样来自NVIDIA DGX A100 SuperPOD，足以见得效能彪悍。

加速AI

为了实现AI加速需求，NVIDIA通过每年提升一倍以上的性能来满足推动神经网络的发展，黄氏定律也维持诞生。

不要以为AI加速离我们生活遥不可及，它可能已经在我们生活中无处不在。以NVIDIA Maxine为例，它能够在极为有限的带宽下实现高质量的视频传输，开发者甚至可以将视频带宽消耗减少到H.264标准的十分之一。并且帮助疫情期间的视频会议面谈实现更高清的对话效果。

NVIDIA Maxine利用了一个十分讨巧的方式，以下图为例，它只发送了一个关键的图像帧，而视频的每一帧只提取关键点，并将其发送到接收端，这是一个非常低的带宽流，但通过神经网络计算让原本关键帧的静态图片动起来，以此实现低带宽高画质的效果。

但这项技术厉害地方在于，你不需要具备特殊传感器的摄像头，通过捕捉每一帧的关键点，GPU实际上就能够知道你做了什么表情，变身二次元轻而易举。

笔者朋友当了一把NV模特，哈哈

在视频会议中，AI还可以充当会议记录员，将每一个同事说话区分、翻译，同时AI也能够充当会议成员的角色，用自然语言进行交互。NVIDIA给这套技术起了一个源自于钢铁侠人工智能管家的名字，Jarvis。

在实际使用中，AI早已能将完全模拟出以假乱真的个体，下图的人像、油画、风景照其实都不存在于现实中，都是通过AI合成的。而NVIDIA的愿景是构建一个完全由AI打造，分不出虚拟和现实的世界，以现在的AI发展速度，似乎已经离我们不远了。

黄氏定律真香

AI推理性能每年提升一倍以上并非仅仅依靠简单的工艺制程提升，NVIDIA首席科学家Bill Dally带领了200人团队就是将各种理论在实验室中付诸实践，将黄仁勋的黄氏定律变成现实。

在演讲中，Bill Dally自豪的表示，如果真想提高计算机性能，黄氏定律就是一项重要指标，且在可预见的未来都将一直适用。

为了实现效能突破，NVIDIA团队开发名为MAGNet工具，通过新技术协调并控制通过设备的信息流，最大限度地减少数据传输，让芯片60%的能耗花费在计算而不是数据传输上。

与此同时，在超级计算机集群已经名声大噪的NVLink在实验室中仍然有更好的提升空间，Bill Dally带领的团队尝试用光路替代传统的电子信号，利用不同颜色的波段不同实现在一根光纤传输中完成800Gbps速率，并利用密集波分复用技术在1平方毫米大小的芯片上实现Tbps级别的数据传，互联密度是现阶段的十倍以上。

更大的传输速率和更远的传输距离意味着NVIDIA可以打造更大且更密集的光链路系统，例如在单一系统中实现160个以上的GPU在NVIDIA DGX系统中协同工作。

在软件层面，NVIDIA还发明了全新编程系统原型Legate。开发者借助Legate，即可在任何规模的系统上，运行针对单一GPU编写的程序，甚至适用于诸如Selene等搭载数千个GPU的巨型超级计算机。

而今黄氏定律让性能不断翻倍的AI推理脑功能运用到了健康医疗、无人驾驶、机器人、数据科学、图形处理等诸多领域。借助GPU，NVIDIA版图也已经延伸到了生产、娱乐、通讯等方方面面，替代摩尔定律，黄氏定律也正在利用不断翻倍提升的AI推理性能改变着我们所认识的世界。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。