打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
直击NVIDIA GTC20:AI性能翻倍 黄氏定律真香

疫情阻止了全球范围内线下举办GTC,但不意味着技术的进步会停止。就在今天,NVIDIA GTC 2020中国线上大会正式拉开序幕,NVIDIA首席科学家Bill Dally亲自上阵发表主题演讲。从NVIDIA如何打造最强GPU,加速AI性能,说到正在逐步取代摩尔定律的黄氏定律。在短短一年内,GPU AI性能成倍提升,NVIDIA究竟是如何做到的?

NVIDIA首席科学家Bill Dally

 

打造最强GPU

一切的基础都是硬件。在安培Ampere GPU架构推出之后,NVIDIA在短短的一年内其运用到了你所能了解的产品中。从具备处理海量计算性能处理难题的Ampere A100 SXM,到小到可以放进玩具的嵌入系统Jetson,安培架构已经无处不在。

以DGX为例,在一个DGX机箱中可以放进8个Ampere GPU,多个DGX机箱可以塞进一个机架中,并与Mellanox交换机一起,组合成那些世界上性能最强大的计算机集群。

但是硬件本身不能解决世界上的难题,它还需要借助软件来应付计算中遇到的严苛问题。事实上,将软件和硬件结合已经成为NVIDIA推进技术前进的主题,即便GPU性能过分强大,NVIDIA也不再以单纯的硬件公司自居。

解决计算问题本身则需要围绕CUDA核心展开,NVIDIA开发了一系列软件帮助研发人员挖掘CUDA性能。例如在面对深度学习的时候,NVIDIA提供了cuDNN、Tensor RT帮助简化深度学习实现的过程。而面对诸如医疗、生产、汽车,NVIDIA都提供了相对应的软件和硬件给予不同的解决方案。

NVIDIA Ampere A100不仅是世界上最大的7nm芯片,具备540亿个晶体管,同时还集成了第三代Tensor Core用于深度学习加速。如果你曾经感受过GeForce RTX 30系列游戏显卡DLSS带来的流畅游戏体验,那么正是GPU中的第三代Tensor Core帮助GPU完成了游戏帧率的加速运算。而诸如DLSS技术的预算也仅仅是Tensor Core运用的冰山一角。

NVIDIA Ampere A100通过对新数据类型支持,从获得而比上一代提升20倍的性能提升,并在原有推理性能增益基础上,通过结构化稀疏支持获2倍的的效率提升,最终使得A100在诸如BERT对话式AI模型中推理吞吐量达到CPU的249倍。

更重要的是A100的执行效能非常高,在全球超算Green 500节能排名中NVIDIA最新的DGX SuperPOD位居榜首,而全球TOP 500超算排名第五的Selene同样来自NVIDIA DGX A100 SuperPOD,足以见得效能彪悍。

 

加速AI

为了实现AI加速需求,NVIDIA通过每年提升一倍以上的性能来满足推动神经网络的发展,黄氏定律也维持诞生。

不要以为AI加速离我们生活遥不可及,它可能已经在我们生活中无处不在。以NVIDIA Maxine为例,它能够在极为有限的带宽下实现高质量的视频传输,开发者甚至可以将视频带宽消耗减少到H.264标准的十分之一。并且帮助疫情期间的视频会议面谈实现更高清的对话效果。

NVIDIA Maxine利用了一个十分讨巧的方式,以下图为例,它只发送了一个关键的图像帧,而视频的每一帧只提取关键点,并将其发送到接收端,这是一个非常低的带宽流,但通过神经网络计算让原本关键帧的静态图片动起来,以此实现低带宽高画质的效果。

但这项技术厉害地方在于,你不需要具备特殊传感器的摄像头,通过捕捉每一帧的关键点,GPU实际上就能够知道你做了什么表情,变身二次元轻而易举。

笔者朋友当了一把NV模特,哈哈

在视频会议中,AI还可以充当会议记录员,将每一个同事说话区分、翻译,同时AI也能够充当会议成员的角色,用自然语言进行交互。NVIDIA给这套技术起了一个源自于钢铁侠人工智能管家的名字,Jarvis。

在实际使用中,AI早已能将完全模拟出以假乱真的个体,下图的人像、油画、风景照其实都不存在于现实中,都是通过AI合成的。而NVIDIA的愿景是构建一个完全由AI打造,分不出虚拟和现实的世界,以现在的AI发展速度,似乎已经离我们不远了。

 

黄氏定律真香

AI推理性能每年提升一倍以上并非仅仅依靠简单的工艺制程提升,NVIDIA首席科学家Bill Dally带领了200人团队就是将各种理论在实验室中付诸实践,将黄仁勋的黄氏定律变成现实。

在演讲中,Bill Dally自豪的表示,如果真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。

为了实现效能突破,NVIDIA团队开发名为MAGNet工具,通过新技术协调并控制通过设备的信息流,最大限度地减少数据传输,让芯片60%的能耗花费在计算而不是数据传输上。

与此同时,在超级计算机集群已经名声大噪的NVLink在实验室中仍然有更好的提升空间,Bill Dally带领的团队尝试用光路替代传统的电子信号,利用不同颜色的波段不同实现在一根光纤传输中完成800Gbps速率,并利用密集波分复用技术在1平方毫米大小的芯片上实现Tbps级别的数据传,互联密度是现阶段的十倍以上。

更大的传输速率和更远的传输距离意味着NVIDIA可以打造更大且更密集的光链路系统,例如在单一系统中实现160个以上的GPU在NVIDIA DGX系统中协同工作。

在软件层面,NVIDIA还发明了全新编程系统原型Legate。开发者借助Legate,即可在任何规模的系统上,运行针对单一GPU编写的程序,甚至适用于诸如Selene等搭载数千个GPU的巨型超级计算机。

而今黄氏定律让性能不断翻倍的AI推理脑功能运用到了健康医疗、无人驾驶、机器人、数据科学、图形处理等诸多领域。借助GPU,NVIDIA版图也已经延伸到了生产、娱乐、通讯等方方面面,替代摩尔定律,黄氏定律也正在利用不断翻倍提升的AI推理性能改变着我们所认识的世界。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
英伟达「黄氏定律」让未来的AI算力每年能够提升一倍
AI发展步入快车道 · GPU占据人工智能风暴中心
超越摩尔定律,NVIDIA再提黄氏定律:每10年GPU性能增长1000倍
英伟达GTC大会万字纪要
AI计算行业巨震:英伟达发布全球最大GPU
巨头转身物联网,物联网的下一站是人工智能
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服