吞吐性能翻倍！搭载了第三代Tensor Core的A100是怎么做到的

时隔三年，英伟达最强芯片 Tesla V100 终于有了继任者，那就是在 2020 年 5 月 14 日, NVIDIA 发布的最新 GPU A100。GPU A100 不仅能实现 1-50 倍的扩展，还让其吞吐性能翻倍。而其吞吐性能提升的主要功臣是其架构中搭载的第三代 Tensor Core 单元。

Tensor Core 是怎么做到这些的？如何在现有的函数库与 Kernel 中使用 Tensor Core？有没有落地实践案例可以做参考呢？如果你想了解更多关于 Tensor Core 的信息，

那么这个分享绝对不能错过！

英伟达即将在 2020 年 8 月 26 日 20：00-21：30 进行“ 看搭载了第三代 Tensor Core 的 A100 如何实现了吞吐性能翻倍 ”的直播分享，直播主要内容如下：

直播介绍

2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构: 安培, 以及基于安培架构最新的 GPU A100. 在安培架构中新增了功能强大的第三代 Tensor Core 单元。

相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持, 提高了各精度的运算吞吐能力, 同时新增稀疏运算特性, 进一步实现了吞吐性能翻倍。

第三代 Tensor Core 新特性如下:

新增了 Tensor Float-32(TF32) 数据类型操作, 提供了对 FP32 数据的加速能力, 相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能, 相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
新增了 Bfloat16(BF16) 数据类型操作, 与 FP16 拥有相同的吞吐性能. 相较于 V100, A100 GPU 获得 2.5 倍 TOPS 提升, 单个 SM 上获得 2 倍性能提升。
相较于 V100, A100 新增了 INT8, INT4, INT1 整数数据类型操作, 进一步加速 DL 推理.
新增加了 FP64 数据类型操作, 相较于 V100, FP64 运算性能提升 2.5 倍。
TF32, BF16, FP16, INT8, INT4 均支持稀疏特性, 运算吞吐能力可再获得 2 倍提升。

在这次的在线研讨会中，您可以获得以下的内容:

第三代 Tensor Core 介绍, Tensor Core 作用与原理等
如何在现有的函数库与 Kernel 中使用 Tensor Core
案例分析: 在 GEMM 中，Tensor Core 的使用与分析

讲师介绍:

姓名：刘冰
职位：NVIDIA GPU 计算专家
简介：拥有多年 GPU 开发经验和深度学习开发经验。曾参与计算机视觉、高性能计算库开发工作。目前主要负责 FasterTransformer 2.0 的进一步的优化及高性能函数开发工作。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。