GPU/CUDA程序初体验向量加法

现在主要的并行计算设备有两种发展趋势：

(1)多核CPU。

　　双核，四核，八核，。。。，72核，。。。，可以使用OpenMP编译处理方案，就是指导编译器编译为多核并行执行。

(2)多线程设备(GP)GPU。

　　通用GPU，就是显卡，以nvidia公司的显卡为主。nvidia使用CUDA编程。

由于毕业的需要，现在开始学习CUDA编程。看了一段时间教程，目前环境已经配好，下面是一个简单的CUDA程序：

程序实现向量的加法操作，使用了一个block内部的512个线程。

 1 #include <stdio.h>
 2 #include<cuda_runtime.h>
 3 
 4 //__global__声明的函数，告诉编译器这段代码交由CPU调用，由GPU执行
 5 __global__ void add(const int *dev_a,const int *dev_b,int *dev_c)
 6 {
 7     int i=threadIdx.x;
 8     dev_c[i]=dev_a[i]+dev_b[i];
 9 }
10 
11 int main(void)
12 {
13     //申请主机内存，并进行初始化
14     int host_a[512],host_b[512],host_c[512];
15     for(int i=0;i<512;i++)
16     {
17         host_a[i]=i;
18         host_b[i]=i<<1;
19     }
20 
21     //定义cudaError，默认为cudaSuccess(0)
22     cudaError_t err = cudaSuccess;
23 
24     //申请GPU存储空间
25     int *dev_a,*dev_b,*dev_c;
26     err=cudaMalloc((void **)&dev_a, sizeof(int)*512);
27     err=cudaMalloc((void **)&dev_b, sizeof(int)*512);
28     err=cudaMalloc((void **)&dev_c, sizeof(int)*512);
29     if(err!=cudaSuccess)
30     {
31         printf("the cudaMalloc on GPU is failed");
32         return 1;
33     }
34     printf("SUCCESS");
35     //将要计算的数据使用cudaMemcpy传送到GPU
36     cudaMemcpy(dev_a,host_a,sizeof(host_a),cudaMemcpyHostToDevice);
37     cudaMemcpy(dev_b,host_b,sizeof(host_b),cudaMemcpyHostToDevice);
38 
39     //调用核函数在GPU上执行。数据较少，之使用一个Block，含有512个线程
40     add<<<1,512>>>(dev_a,dev_b,dev_c);
41     cudaMemcpy(&host_c,dev_c,sizeof(host_c),cudaMemcpyDeviceToHost);
42     for(int i=0;i<512;i++)
43         printf("host_a[%d] + host_b[%d] = %d + %d = %d
",i,i,host_a[i],host_b[i],host_c[i]);
44     cudaFree(dev_a);//释放GPU内存
45     cudaFree(dev_b);//释放GPU内存
46     cudaFree(dev_c);//释放GPU内存
47     return 0 ;
48 }

View Code

程序输出：

GPU/CUDA程序初体验 向量加法

GPU/CUDA程序初体验向量加法