CUDA优化

cuda程序优化

一：程序优化概述
1：精度
在关键步骤使用双精度，其他步骤使用单精度，以获得指令吞吐量和精度的平衡。

2：延迟
先缓冲一定量数据，在交给GPU计算。可以获得较高的数据吞吐量。

3：计算量
1）：绝对计算量
当计算量较少时，不因用GPU
2）：相对计算量
当计算量中的并行站大多比例，因使用GPU并行计算。

4：优秀的CUDA程序
1）给点数据规模下，选用的算法复杂度不明显高于最优算法
2）活动的线程束应使SM满载，且活动的线程块数应大于等于2，可以有效隐藏延迟。
3）当瓶颈出现在运算时，说明指令流已经做了最好的优化
4）当瓶颈出现在IO或访存时，表明选择了最好的存储器与访存方式，以获得最大的带宽。瓶颈----〉带宽

5：CUDA程序开发流程与优化
1）确定串行与并行部分，选择合适算法
2）按照算法确定数据与任务的划分，将每个需要并行并行实现的步骤映射为一个CUDA两层并行模型的核函数。
3）编写一个能够正常运行的程序。
4）优化显存访问，避免显存带宽成为瓶颈。---〉只有将带宽问题优化，才能使优化结果明显
5）优化指令流
6）资源均衡。调整shared memory 与 register的分配使用量，获得更高的ＳＭ占有率
7）与主机通信优化

6：优化显存访问方式
1）在数据只访问一次，且满足合并访问的情况下，考虑使用zeroy copy memory
2）除非非常必要，应尽量避免将线程的私有变量分配到local memory；
3）为满足合并访问，保证访问的首地址从16的整倍数开始，对数据类型进行对齐（__align）,采用cudaMallocPitch cudaMalloc3D分配显存

7：优化指令流
１）若只需使用少量线程，尽量使用 if threadId <Ｎ　
２）采用原子函数，完成比较复杂的算法，保证结果正确性
３）避免多余的同步

８：资源均衡
　１）提高shared使用率
修改算法指令，动态分配，调整ｂｌｏｃｋ大小。
２·）节约寄存器使用
　　使用shared memory存储变量，尽量使用括号减短变量声明周期
　　使用占用寄存器较小的等效指令代替原有指令。＿ｓｉｎ代替ｓｉｎ

９：提高带宽
　１）使用ｃｕｄａＭａｌｌｏｃＨｏｓｔ分配主机端内存
　２）使用ｚｅｒｏｙｃｏｐ　和　ｗｒｉｔｅｃｏｍｂｉｎｅｄ内存
　３）一次缓存较多数据，再一次性传输
　４）使用流和异步处理隐藏与主机通信时间