打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
吞吐性能翻倍!搭载了第三代Tensor Core的A100是怎么做到的 | 活动推荐

时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在 2020 年 5 月 14 日, NVIDIA 发布的最新 GPU A100。GPU A100 不仅能实现 1-50 倍 的 扩展,还让其吞吐性能翻倍。而其吞吐性能提升的主要功臣是其架构中搭载的第三代 Tensor Core 单元。

Tensor Core 是怎么做到这些的?如何在现有的函数库与 Kernel 中使用 Tensor Core?有没有落地实践案例可以做参考呢?如果你想了解更多关于 Tensor Core 的信息,

那么这个分享绝对不能错过!

英伟达即将在 2020 年 8 月 26 日 20:00-21:30 进行“ 看搭载了第三代 Tensor Core 的 A100 如何实现了吞吐性能翻倍 ”的直播分享,直播主要内容如下:

直播介绍

2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构: 安培, 以及基于安培架构最新的 GPU A100. 在安培架构中新增了功能强大的第三代 Tensor Core 单元。

相较于 V100,  A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持, 提高了各精度的运算吞吐能力, 同时新增稀疏运算特性, 进一步实现了吞吐性能翻倍。

第三代 Tensor Core 新特性如下:

  1. 新增了 Tensor Float-32(TF32) 数据类型操作, 提供了对 FP32 数据的加速能力, 相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能, 相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。

  2. 新增了 Bfloat16(BF16) 数据类型操作, 与 FP16 拥有相同的吞吐性能. 相较于 V100, A100 GPU 获得 2.5 倍 TOPS 提升, 单个 SM 上获得 2 倍性能提升。

  3. 相较于 V100,  A100 新增了 INT8, INT4, INT1 整数数据类型操作, 进一步加速 DL 推理.

  4. 新增加了 FP64 数据类型操作, 相较于 V100, FP64 运算性能提升 2.5 倍。

  5. TF32, BF16, FP16, INT8, INT4 均支持稀疏特性, 运算吞吐能力可再获得 2 倍提升。

在这次的在线研讨会中,您可以获得以下的内容:

  1. 第三代 Tensor Core 介绍, Tensor Core 作用与原理等

  2. 如何在现有的函数库与 Kernel 中使用 Tensor Core

  3. 案例分析: 在 GEMM 中,Tensor Core 的使用与分析

讲师介绍:
  • 姓名:刘冰

  • 职位:NVIDIA GPU 计算专家

  • 简介:拥有多年 GPU 开发经验和深度学习开发经验。曾参与计算机视觉、高性能计算库开发工作。目前主要负责 FasterTransformer 2.0 的进一步的优化及高性能函数开发工作。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
iGame GeForce RTX 3080 Vulcan 10G首测:安培重装上阵 玩家新利器
英伟达推出RTX 30系列显卡,性能翻倍,价格亮了
巅峰对决:英伟达 V100、A100/800、H100/800 GPU 对比
英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?
双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
五大重要改进 Intel第三代i5/i7评测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服