时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在 2020 年 5 月 14 日, NVIDIA 发布的最新 GPU A100。GPU A100 不仅能实现 1-50 倍 的 扩展,还让其吞吐性能翻倍。而其吞吐性能提升的主要功臣是其架构中搭载的第三代 Tensor Core 单元。
Tensor Core 是怎么做到这些的?如何在现有的函数库与 Kernel 中使用 Tensor Core?有没有落地实践案例可以做参考呢?如果你想了解更多关于 Tensor Core 的信息,
那么这个分享绝对不能错过!
英伟达即将在 2020 年 8 月 26 日 20:00-21:30 进行“ 看搭载了第三代 Tensor Core 的 A100 如何实现了吞吐性能翻倍 ”的直播分享,直播主要内容如下:
2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构: 安培, 以及基于安培架构最新的 GPU A100. 在安培架构中新增了功能强大的第三代 Tensor Core 单元。
相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持, 提高了各精度的运算吞吐能力, 同时新增稀疏运算特性, 进一步实现了吞吐性能翻倍。
第三代 Tensor Core 新特性如下:
新增了 Tensor Float-32(TF32) 数据类型操作, 提供了对 FP32 数据的加速能力, 相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能, 相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
新增了 Bfloat16(BF16) 数据类型操作, 与 FP16 拥有相同的吞吐性能. 相较于 V100, A100 GPU 获得 2.5 倍 TOPS 提升, 单个 SM 上获得 2 倍性能提升。
相较于 V100, A100 新增了 INT8, INT4, INT1 整数数据类型操作, 进一步加速 DL 推理.
新增加了 FP64 数据类型操作, 相较于 V100, FP64 运算性能提升 2.5 倍。
TF32, BF16, FP16, INT8, INT4 均支持稀疏特性, 运算吞吐能力可再获得 2 倍提升。
在这次的在线研讨会中,您可以获得以下的内容:
第三代 Tensor Core 介绍, Tensor Core 作用与原理等
如何在现有的函数库与 Kernel 中使用 Tensor Core
案例分析: 在 GEMM 中,Tensor Core 的使用与分析
姓名:刘冰
职位:NVIDIA GPU 计算专家
简介:拥有多年 GPU 开发经验和深度学习开发经验。曾参与计算机视觉、高性能计算库开发工作。目前主要负责 FasterTransformer 2.0 的进一步的优化及高性能函数开发工作。
联系客服