【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器

来自吉浦迅科技整理发布

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd

第五名：Tesla K80

　　Tesla ——英伟达高端大气上档次专用计算卡品牌，以性能高、稳定性强，适用于长时间高强度计算著称。

Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量，内置24GB GDDR5 存储器，每颗 GPU 有 12GB 存储器，比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心，可比仅用CPU 运算提升高达10 倍应用加速效能，单精度峰值浮点性能为8.74 Teraflops，双精度峰值浮点性能为2.91 Teraflops，峰值内存带宽为480 GB/s，非常适合于数据密集型应用。

特性	Tesla K80	Tesla K40
GPU	2 颗 Kepler GK210	1 Kepler GK110B
峰值双精度浮点性能	2.91 Tflops (GPU 动态提速频率) 1.87 Tflops (基础频率)	1.66 Tflops (GPU 动态提速频率) 1.43 Tflops (基础频率)
峰值单精度浮点性能	8.74 Tflops (GPU 动态提速频率) 5.6 Tflops (基础频率)	5 Tflops (GPU 动态提速频率) 4.29 Tflops (基础频率)
存储器带宽(ECC关闭)2	480 GB/s (每颗GPU 240 GB/s)	288 GB/sec
存储器容量(GDDR5)	24 GB (每颗GPU 12GB)	12 GB
CUDA核心数量	4992 个 (每颗 GPU 2496个)	2880

上榜理由：双精度计算之冠，舍我其谁？

适用机型：机架式服务器

市场零售价：3万人民币

第四名：Tesla M40

Tesla家族第一款Maxwell架构计算卡！ Maxwell架构除了双精度是弱外，其他各方面都十分优秀，比如加入了寄存器的缓冲，用来消除寄存器的bank conflict，再比如加入远程原子操作，即shared memory能自行计算，不占用SP，同时还提高了原子操作的性能。

英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器，专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200，3072个CUDA核心，单精度浮点计算突破7TFlops，而双精度几乎只能呵呵了。

特性	Tesla K80	Tesla M40
GPU	2 颗 Kepler GK210	1 Maxwell GM200
峰值双精度浮点性能	2.91 Tflops (GPU 动态提速频率) 1.87 Tflops (基础频率)	0.21Tflops
峰值单精度浮点性能	8.74 Tflops (GPU 动态提速频率) 5.6 Tflops (基础频率)	7 Tflops
存储器带宽(ECC关闭)2	480 GB/s (每颗GPU 240 GB/s)	384GB/sec
存储器容量(GDDR5)	24 GB (每颗GPU 12GB)	12 GB
CUDA核心数量	4992 个 (每颗 GPU 2496个)	3072

上榜理由：高富帅之不需要双精度的首选，你值得拥有！

适用机型：机架式服务器

市场零售价：3.3万人民币

第三名：Titan X

小编觉得让GPU在机器学习上真正开始发扬光大的是Titan X的出现！

同样采用了完整的麦克斯韦架构大核心GM200，3072个CUDA核心，单精度浮点计算7TFlops，12GB显存，再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持，更是让数据科学家和研究人员如虎添翼，能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络，从而加速其深度学习项目和产品的开发工作，也因此让Titan X声名大噪！关键让人泪奔的还有价格：9千人民币有找！

特性	Titan X	TeslaM40
GPU	1 Maxwell GM200	1 Maxwell GM200
峰值双精度浮点性能	0.21Tflops	0.21Tflops
峰值单精度浮点性能	7Tflops	7 Tflops
存储器带宽(ECC关闭)2	384 GB/s	384GB/sec
存储器容量(GDDR5)	12 GB	12 GB
CUDA核心数量	3072	3072

上榜理由：屌丝的逆袭！

适用机型：塔式服务器/工作站

市场零售价：8866元人民币（以华硕Titan X某东商城价格为例）

第二名：GTX1080

上个月英伟达正式发布了新一代旗舰显卡 GeForce GTX 1080，应该算是首款Pascal上市的显卡产品。

Pascal架构的Half2向量操作特性，免费了200%的性能（不过是半精度），可以说早买早收益。而本月英伟达最新的cuDNN5开放下载，可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升，这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高，但谁叫GTX1080的价格只有Titan X的2/3呢？

特性	Titan X	GTX1080
GPU	1 Maxwell GM200	1 Pascal GP104
峰值双精度浮点性能	0.21Tflops	N/A
峰值单精度浮点性能	7Tflops	9 Tflops
存储器带宽(ECC关闭)2	384 GB/s	320GB/sec
存储器容量(GDDR5)	12 GB	8 GB
CUDA核心数量	3072	2560

上榜理由：让NVIDIA在机器学习的道路上走得更加深远

适用机型：塔式服务器/工作站

市场零售价：5600元人民币（华硕GTX1080某东商城开始预售）

第一名：Tesla P100

小编只能说：这是一款大杀器，所有资料都来自于网路上。传言，它只开启了3584个单精度、1792个双精度核心，即便如此，单、双精度浮点性能也高达10.6TFlops、5.3TFlops，同时还搭配了4096-bit 16GB HBM2高带宽显存，并支持全新的NVLink互连总线，取代传统PCI-E

——它就是传说中的Tesla P100！英伟达声称将推动深度学习和HPC应用性能跨越式发展：其中，全新的Pascal架构实现了巨大的性能飞跃，半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能；NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS 和 HBM2带来3倍带宽提升；页面迁移引擎带来了无限制的寻址能力，实现更强的可编程性。

网上传言单颗P100都能干掉两颗M40，领先幅度10-20％不等，而对比消费级游戏卡，P1001颗已经相当于GTX Titan X四颗的水准。

而最新发布的cuDNN5也特别强调了对Tesla P100的支持！

上榜理由：高富帅的顶级装备

适用机型：NVIDIA DGX-1

市场零售价：据说不-单-卖！