双精度张量内核加快了高性能计算

双精度张量内核加快了高性能计算

通过NVIDIA Ampere架构,仿真和迭代求解器可将FP64数学提高多达2.5倍。

 

 模拟可以帮助了解黑洞的奥秘,并了解冠状病毒上的蛋白质尖峰如何导致COVID-19。还可以让设计师创建从时尚汽车到喷气发动机的所有东西。

但是仿真也是地球上最苛刻的计算机应用程序之一,因为需要大量最先进的数学。

通过使用称为FP64的双精度浮点格式的计算,仿真使数值模型变得可视化。格式中的每个数字在计算机中占用64位,使其成为当今GPU支持的多种数学格式中计算强度最高的一种。

NVIDIA Ampere架构定义了第三代Tensor内核,这是努力加速高性能计算的又一大举措,与上一代GPU相比,它们可将FP64数学运算速度提高2.5倍。

这意味着在最新的A100 GPU上运行时,可以在几个小时内查看使研究人员和设计师整夜等待的模拟。

科学使AI陷入循环

速度的提高打开了将AI与仿真和实验相结合的大门,创建了一个正反馈回路,从而节省了时间。

首先,模拟会创建训练AI模型的数据集。然后,AI和仿真模型一起运行,相互取长补短,直到AI模型准备好通过推理提供实时结果。训练有素的AI模型还可以从实验或传感器中获取数据,从而进一步完善其洞察力。

使用此技术,AI可以定义一些感兴趣的区域以进​​行高分辨率仿真。通过缩小范围,AI可以将数千个费时的仿真需求减少几个数量级。并且需要运行的仿真在A100 GPU上的运行速度将提高2.5倍。

视频播放器

借助FP64和其它新功能,基于NVIDIA Ampere架构的A100 GPU成为了灵活的平台,可用于仿真以及AI推理和训练-现代HPC的整个工作流程。该功能将推动开发人员将仿真代码迁移到A100。

用户可以调用新的CUDA-X库来访问A100中的FP64加速。这些GPU内置了支持DMMA的第三代Tensor内核,DMMA是一种新模式,可加速双精度矩阵乘法累加运算。

加速矩阵数学

单个DMMA作业使用一条计算机指令来代替八条传统的FP64指令。结果,A100的FP64数学运算速度比其它芯片更快,工作量更少,不仅节省了时间和功耗,而且还节省了宝贵的内存和I / O带宽。

将此新功能称为双精度张量核心。它为HPC应用程序提供了Tensor Core的功能,以完整的FP64精度加速了矩阵数学运算。

除了模拟之外,称为迭代求解器的HPC应用程序(具有重复矩阵数学计算的算法)将受益于此新功能。这些应用程序包括地球科学,流体动力学,医疗保健,材料科学和核能以及石油和天然气勘探领域的广泛工作。

为了服务于世界上最苛刻的应用程序,双精度Tensor内核进入了我们制造的最大,功能最强大的GPU中。与地球上的任何GPU相比,A100还拥有更多的内存和带宽。

NVIDIA Ampere架构中的第三代Tensor Core比以前的版本更强大。它们支持更大的矩阵尺寸-8x8x4,而Volta则为4x4x4,从而使用户能够解决更棘手的问题。

这就是为什么总共有432个Tensor Core的A100可以提供高达19.5 FP64 TFLOPS的原因,是Volta V100性能的两倍以上。

原文地址:https://www.cnblogs.com/wujianming-110117/p/14211200.html