AMD Instinct MI100-首个FP64性能超10TFLOPS的计算卡

基础参数

硬件架构:CDNA
软件栈:ROCm,Radeon Open Compute Platform
互联端口:3条Infinity Fabric 2.0
Host端口:X16 PCIe Gen 4/3
形态:Full High Full Length Dual Slot 
制程:7nm
制造商:TSMC

计算性能:

Computing Unit:120个;
CU中的stream processor的个数:64;
总的SP的个数是:120*64=7680个
基础频率:1200MHz
Boost频率:1502MHz
FP64Boost性能为:7680*1502MHz/10^6=11.5TFLOPS
创新点:Matrix Core,可以进行矩阵运算,MFMA运算,Matrix Fused Multify-Add

互联性能:

X16 PCIe Gen4运行在32GT/s可以提供双向64GB/s的CPU交互带宽
顶部支持3个IF2.0的Link,类似于Bridge形式实现互联;

 猜测单个运行在2875MHz*X16lane*8倍频*2双向/8/1000=2.875*32=92GB/s

官方宣称的是3*92=276GB/s;
3个link可以实现4个卡相互之间1跳互联,可以预测HPC的计算节点可能搭配的是2个CPU加上8个GPU;

内存性能

内存频率:1200MHz
内存倍频:2DDR
内存类型:HBM
内存容量:32GB
内存芯片个数:4Chip
内存位宽:4*1024bit=4096bit
内存带宽:1200MHz*2*4096/1000/8=1228.8GB/s
 
参考文献:
 

万事走心 精益求美


原文地址:https://www.cnblogs.com/kongchung/p/14745254.html