CUDA基础介绍

一、GPU简介

1985年8月20日ATi公司成立，同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡，1992年4月ATi发布了Mach32图形卡集成了图形加速功能，1998年4月ATi被IDC评选为图形芯片工业的市场领导者，但那时候这种芯片还没有GPU的称号，很长的一段时间ATi都是把图形处理器称为VPU，直到AMD收购ATi之后其图形芯片才正式采用GPU的名字。

NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。GPU使显卡削减了对CPU的依赖，并实现部分原本CPU的工作，尤其是在3D图形处理时。GPU所采用的核心技术有硬体T&L(Transform and Lighting，多边形转换和光源处理)、立方环境材质贴图与顶点混合、纹理压缩及凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬体T&L技术能够说是GPU的标志。

GPU(Graphics Processing Unit)即图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上作图像运算工作的微处理器。

显卡作为电脑主机里的一个重要组成部分，承担输出显示图形的任务。显卡的处理器称为图形处理器(GPU)，它是显卡的”心脏”，与CPU类似，只不过GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。

时下的GPU多数拥有2D或3D图形加速功能。有了GPU，CPU就从图形处理的任务中解放出来，可以执行其他更多的系统任务，这样可以大大提高计算机的整体性能。

GPU会产生大量热量，所以它的上方通常安装有散热器或风扇。

GPU是显示卡的”大脑”，GPU决定了该显卡的档次和大部分性能，同时GPU也是2D显示卡和3D显示卡的区别依据。2D显示芯片在处理3D图像与特效时主要依赖CPU的处理能力，称为软加速。3D显示芯片是把三维图像和特效处理功能集中在显示芯片内，也就是所谓的”硬件加速”功能。显示芯片一般是显示卡上最大的芯片(也是引脚最多的)。时下市场上的显卡大多采用NVIDIA和 AMD-ATI 两家公司的图形处理芯片。

GPU已经不再局限于3D图形处理了，GPU通用计算技术发展已经引起业界不少的关注，在浮点运算、并行计算等部分计算方面，GPU可以提供数十倍乃至于上百倍于CPU的性能。

GPU通用计算方面的标准目前有OpenCL、CUDA、AMD APP、DirectCompute。

二、GPU通用计算编程

对GPU通用计算进行深入研究从2003年开始，并提出了GPGPU概念，前一个GP则表示通用目的(General Purpose)，所以GPGPU一般也被称为通用图形处理器或通用GPU。

GPU通用计算通常采用CPU+GPU异构模式，由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算，由GPU负责计算密集型的大规模数据并行计算。

OpenCL(Open Computing Language，开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，AMD-ATI、NVIDIA时下的产品都支持OpenCL。目前，OpenCL最新版本为2.2.

CUDA(Compute Unified Device Architecture)是一种将GPU作为数据并行计算设备的软硬件体系，硬件上NVIDIA GeForce 8系列以后的GPU(包括GeForce、ION、Quadro、Tesla系列)已经采用支持CUDA的架构，软件开发包上CUDA也已经发展到CUDA Toolkit 8.0，并且支持Windows、Linux、MacOS三种主流操作系统。CUDA采用比较容易掌握的类C语言进行开发。

AMD APP(AMD Accelerated Parallel Processing)是AMD加速并行处理技术。是AMD针对旗下图形处理器(GPU)所推出的通用并行计算技术。利用这种技术可以充分发挥AMD GPU的并行运算能力，用于对软件进行加速运算或进行大型的科学运算。AMD APP技术的前身称作ATI Stream。2010年10月，随着AMD Radeon HD6800系列显卡的发布，ATI品牌正式被AMD取代。ATI Stream技术也随着技术升级并更名为AMD APP技术。目前，AMD APP SDK最新版本为3.0.

DirectCompute是一种用于GPU通用计算的应用程序接口，由Microsoft(微软)开发和推广，集成在Microsoft DirectX内。目前，最新的DirectX版本为DirectX 12，安装在windows 10上。DirectX 11内集成DirectCompute 5.0，那DirectX 12内应该是集成DirectCompute 6.0吧。

其中OpenCL、DirectCompute、AMD APP(基于开放型标准OpenCL开发)是开放标准，CUDA是私有标准。

三、NVIDIA 显卡系列

NVIDIA(英伟达)创立于1993年1月，是一家以设计智核芯片组为主的无晶圆(Fabless)IC半导体公司。

NVIDIA已经开发出了五大产品系列，以满足特定细分市场需求，包括：GeForce、Tegra、ION、Quadro、Tesla。

Geforce系列主要面向家庭和企业的娱乐应用,该系列又可以分为面向性能的GTX系列,面向主流市场的GTS和GT系列，已经具有高性价比的GS系列。

Quadro系列主要应用于图形工作站中，对专业领域应用进行了专门优化。

Tesla系列是专门用于高性能通用计算的产品线。

Tegra系列是NVIDIA为便携式和移动领域推出的全新解决方案，在极为有限的面积上集成了通用处理器、GPU、视频解码、网络、音频输入输出等功能，并维持了极低的功耗。

针对Geforce显卡系列，NVIDIA各代显卡都遵循了由高至低命名规则：GTX>GTS>GT>GS

从GTX 500系开始，为避免命名复杂带来的产品线识别困扰，NVIDIA显卡将取消GTS级别的显卡，中高端全部使用GTX命名，而低端使用GT命名，带Ti后缀为更高一级显卡，如GTX 560 Ti > GTX 560.

NVIDIA显卡末尾数字解读，以GeForce GTX 980M：GTX代表是高端显卡的意思；980M：第一位数字9，代表第几代的意思(9是高端显卡第九代的意思，如果末尾数字有四位，则前两位表示是第多少代的意思，如GeForce GTX 1080)。第二位至关重要，因为显卡分高端显卡，中端显卡，入门级显卡就是取决于第二位数字的。第二位数字是1-2代表是入门级显卡；第二位数字是3-5代表是中端显卡；第二位数字是6-9代表是高端显卡。第三位数字是一个特殊的标志，几乎能在市场上买到的显卡都是0结尾的，如果第三位数字为5的显卡一般都是OEM显卡，即只给大厂子做品牌机的特供。数字越大，性能越好。显卡数字后缀Ti，代表加强。

如果用显卡来进行各种运算，衡量显卡性能的参数可包括：(1)、核心数目；(2)、显存带宽(GPU计算能力太强，很多时候瓶颈都在数据传输上)；(3)、峰值单精度浮点计算能力；(4)、峰值双精度浮点计算能力；(5)、时钟频率；(6)、架构版本。

四、CUDA基础

1. 简介

CUDA(Compute Unified Device Architecture，统一计算设备架构)，是显卡厂商NVIDIA在2007年推出的并行计算平台和编程模型。它利用图形处理器(GPU)能力，实现计算性能的显著提高。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题，从而能通过程序控制底层的硬件进行计算。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C/C++/C++11语言来为CUDA架构编写程序。CUDA提供host-device的编程模式以及非常多的接口函数和科学计算库，通过同时执行大量的线程而达到并行的目的。

3.0以下版本仅支持C编程，从3.0版本开始支持C++编程，从7.0版本开始支持C++11编程。

CUDA仅能在有NVIDIA显卡的设备上才能执行，并不是所有的NVIDIA显卡都支持CUDA，目前NVIDIA的GeForce、ION、Quadro以及Tesla显卡系列上均可支持。根据显卡本身的性能不同，支持CUDA的版本也不同。

2. 安装

(1)、在windows上的安装可以参考：http://blog.csdn.net/fengbingchun/article/details/53892997

(2)、在ubuntu上的安装可以参考：http://blog.csdn.net/fengbingchun/article/details/53840684

3. 使用CUDA C编写代码的前提条件

(1)、支持CUDA的图形处理器：从2007年开始，NVIDIA新推出的并且显存超过256MB的GPU都可以用于开发和运行基于CUDAC编写的代码。

(2)、NVIDIA设备驱动程序：NVIDIA提供了一些系统软件来实现应用程序与支持CUDA的硬件之间的通信，即显卡驱动程序。要确保安装匹配的驱动程序，选择与开发环境相符的图形卡和操作系统。

(3)、CUDA开发工具箱：CUDA Toolkit，注意选择与操作系统相匹配的CUDA Toolkit。

(4)、标准C编译器：由于CUDA C应用程序将在两个不同的处理器上执行计算，因此需要两个编译器。其中一个编译器为GPU编译代码，而另一个为CPU编译代码。下载并安装CUDA Toolkit后，就会获得一个编译GPU代码的编译器。对于CPU编译器，Windows推荐使用Visual Studio，Linux使用GNU C编译器(gcc)，Mac使用Xcode。

4. 设备计算能力

设备计算能力的版本描述了一种GPU对CUDA功能的支持程度。计算能力版本中小数点前的第一位用于表示设备核心架构，小数点后的第一位则表示更加细微的进步，包括对核心架构的改进以及功能的完善等。例如，计算能力1.0的设备能够支持CUDA，而计算能力1.1设备加入了对全局存储器原子操作的支持，计算能力1.2的设备则可以支持warp vote函数等更多功能，而计算能力1.3的设备又加入了对双精度浮点运算功能。

GeForce GTX 970型号计算能力为5.2，GeForce GT 640M型号计算能力为3.0，目前GeForce系列最高的计算能为6.1，可在https://developer.nvidia.com/cuda-gpus中查找各种系列型号的计算能力以及查找指定的显卡型号是否支持CUDA。

5. 软件体系

CUDA的软件堆栈由三层构成，如下图，CUDA Library、CUDA runtimeAPI、CUDA driver API. CUDA的核心是CUDA C语言，它包含对C语言的最小扩展集和一个运行时库，使用这些扩展和运行时库的源文件必须通过nvcc编译器进行编译。

CUDA C语言编译得到的只是GPU端代码，而要管理GPU资源，在GPU上分配显存并启动内核函数，就必须借助CUDA运行时API(runtime API)或者CUDA驱动API(driver API)来实现。在一个程序中只能使用CUDA运行时API与CUDA驱动API中的一种，不能混合使用。