Hello GPU

部分知识摘自一个网站的描述，自己通过程序实现进行了测试，得到了一些感性的认识

C++ AMP是微软提供的一套利用GPU并行计算的API。GPU运算不是新概念，用GPU运算比较有名的已有NVIDIA的CUDA，AMD的stream。同时对于OpenCL这个标准大家也一定没见过也听说(AMP同样与近日放出了开放标准)。

导读:C++ AMP是微软提供的一套利用GPU并行计算的API. GPU运算不是新概念,用GPU运算比较有名的已有NVIDIA的CUDA,AMD的stream. 同时对于OpenCL这个标准大家也一定没见过也听说(AMP同样与近日放出了开放标准).但是至少目前比较成气候的CUDA,他只能用在N卡上，归根结底是由于CUDA用到N家的驱动，所以A卡不能用。那么OpenCL呢？很多大厂也都有自己独特的变种，所以还不能说真正的一次编译，全平台运行。而AMP就利用到了得天独厚的平台优势，假如你用windows，用AMP是不二之选。当然有个前提，天下没有免费的午餐，您的显卡要支持DX11才行。

说了这么多，让我们看看AMP什么样子吧，下面是段类似于Hello world的AMP 代码片段。

其中GPU编程实现：

void MatrixMultiplyGPU(std::vector<float>& vC,
                        const std::vector<float>& vA,
                        const std::vector<float>& vB, int M, int N, int W)

{
    concurrency::array_view<const float,2> a(M, W, vA);
    concurrency::array_view<const float,2> b(W, N, vB);
    concurrency::array_view<float,2> c(M, N, vC); c.discard_data();

    concurrency::parallel_for_each(c.extent,
        [=](concurrency::index<2> idx) restrict(amp) {
            int row = idx[0]; int col = idx[1];
            float sum = 0.0f;
            for(int i = 0; i < W; i++)
                sum += a(row, i) * b(i, col);
                c[idx] = sum;    
        });
}

如果你已经装上了vs11的beta，那么ctrl+c/ctrl+v赶紧体验下吧：）好吧，在这个c++十分激进的年代（近期的c++11和这个AMP，喜欢研究的童鞋又可以虐待自己的脑细胞了），上面代码肯定让你有不少迷糊的地方，下面我根据个人经验跟大家分析下，分析的不好，不要扔鞋哦。

是比较核心的地方, 这个是我们这个矩阵运算的精髓.前三个类型定义,我们暂且不管,接着往下看,一个 parallel_for_each 他其实是个函数,我第一眼还以为是个类似于关键字for的东东.他有两个参数,第一个是种成为extent的东西,目前为了便于理解,你可以理解为一个数组的维度.第二个参数是一个lambda.这里大家都玩.NET的,对lambda一定不陌生,概念上不需要多讲,主要一点如果对c++lambda陌生,可以参考这里我们看看这个lambda里面都做了些什么?[=]表示lambda里捕捉的变量按照传值来引用,restrict(amp)表示这段代码运行在默认Device上.你还可以指定是cpu.(ps.在AMP 1st Release中, 有direct3d.) concurrency::index<2> idx 这个lambda的参数表示的是个线程单位,当前我们可以认为lambda传几个idx,就有几个线程. 至于lambda里面的函数,就是利用数据并行做的计算,简单的矩阵相乘.

为进行对比，CPU编程实现同样功能：

void MatrixMultiplyCPU(std::vector<float>& vC,
                        const std::vector<float>& vA,
                        const std::vector<float>& vB, int M, int N, int W)
{
    // 为和GPU预算的处理保持一致，采用这样的方式
    concurrency::array_view<const float,2> a(M, W, vA);
    concurrency::array_view<const float,2> b(W, N, vB);
    concurrency::array_view<float,2> c(M, N, vC); c.discard_data();

    for (int i = 0; i < M; i++)
    {
        for (int j = 0; j < N; j++)
        {
            float sum = 0.0f;
            for (int k = 0; k < W; k++)
            {
                sum += a(i,k) * b(k,j);
            }
            c(i,j) = sum;
        }
    }
}

测试主程序如下，从运行时间上进行了对比：

#include <iostream>
#include <amp.h>
#include <time.h>

void MatrixMultiplyGPU(std::vector<float>& vC,
                        const std::vector<float>& vA,
                        const std::vector<float>& vB, int M, int N, int W);

void MatrixMultiplyCPU(std::vector<float>& vC,
                        const std::vector<float>& vA,
                        const std::vector<float>& vB, int M, int N, int W);

int main()

{
    int M = 1000, N = 1000, W = 1000;

    std::vector<float> vec_rsltGPU(M*N);
    std::vector<float> vec_rsltCPU(M*N);

    long ACount = M * W;
    std::vector<float> vec_A;
    for (long i = 0; i < ACount; i++ )
    {
        vec_A.push_back((float)rand()/(float)(ACount*ACount));
    }

    int BCount = W*N;
    std::vector<float> vec_B;
    for (long i = 0; i < BCount; i++ )
    {
        vec_B.push_back((float)rand()/(float)(ACount*ACount));
    }

    DWORD  tStart1 = GetTickCount();
    MatrixMultiplyGPU(vec_rsltGPU, vec_A, vec_B, M, N, W);
    DWORD tEnd1 = GetTickCount();

    DWORD  tStart2 = GetTickCount();
    MatrixMultiplyCPU(vec_rsltCPU, vec_A, vec_B, M, N, W);
    DWORD tEnd2 = GetTickCount();

    std::cout << "GPU time:\t" << tEnd1 - tStart1 << std::endl;
    std::cout << "CPU time:\t" << tEnd2 - tStart2 << std::endl;

    system("pause");

    return 0;

}

再看line2，用api，一定要包含头文件，我们的AMP十分为大家着想，只需要这么简单一个头文件就行了。用过DX的童鞋一定还记得那include无尽的dxxxx.h和dxxxx.lib.

测试结果:

	M=1000， N=1000， W=1000	M=1000， N=1000， W=100	M=100， N=100， W=1000	M=100， N=100， W=1000	M=100， N=100， W=100
GPU Time	3276	484	500	293	234
CPU Time	358007	42401	38407	4026	452

以上测试大概取的几次作为平均，具有一定的统计意义。

CPU的复杂度是和处理的数据规模正相关的，对于大规模的数据处理可以通过有效的涉及并行化处理减少运算时间。

早上到公司试了下没有DX11支持的电脑，真是要了命，直接开了n个线程，导致出现这样的情况：

	M=100， N=100， W=1000， DX11 Support	M=100， N=100， W=1000，No DX11 Support
GPU Time	293	108888
CPU Time	4026	3167

通过本次测试，了解了如何运用GPU进行并行化计算，拟通过次方法进行一个应用：哈夫变换求平面参数的GPU实现【还未实现】

参考：http://www.cnblogs.com/baesky

http://www.infoq.com/cn/articles/cpp_amp_computing_on_GPU

http://www.parallellabs.com/2012/05/09/cplusplus-amp-programming/