GPU上的基本线性代数

GPU上的基本线性代数

cuBLAS库提供了基本线性代数子例程(BLAS)的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作,跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS,应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDKCUDA Toolkit中

cuBLAS多GPU扩展

cuBLASMg提供了最新的多GPU矩阵矩阵乘法,每个矩阵都可以2D块循环的方式在多个设备之间分配。cuBLASMg当前是CUDA数学库早期访问计划的一部分。

cuBLAS性能

cuBLAS库针对NVIDIA GPU的性能进行了高度优化,并利用张量内核加速了低精度和混合精度矩阵乘法。

cuBLAS的主要功能

  • 全面支持所有152个标准BLAS例程
  • 支持半精度和整数矩阵乘法
  • 针对Volta和Turing张量Cores进行了优化的GEMM和GEMM扩展
  • 针对各种深度学习模型中使用的大小调整了GEMM性能
  • 支持CUDA流以进行并发操作

 

人工智能芯片与自动驾驶
原文地址:https://www.cnblogs.com/wujianming-110117/p/14418957.html