CUDA程序优化的记录

1 cuda 优化

 copy函数

使用cublas 库函数的程序框架

1.       cublasInit();   

2.       将要计算的变量拷贝到显存上

3.       调用cublas core function

4.       将计算后变量拷贝回到内存上

5.       cublasShutdown();

第二和第四步的说明:将要计算的变量“放到”显存上,这里有两种方式来实现:第一种利用cublas提供的helper function cublasAlloc和cublasSetMatrix,第二种:利用cuda提供的cudamalloc 和cudaMemcpy。经过测试,这两种方式的执行效率相差不大


2opencl优化相关的文章


http://hi.baidu.com/fsword73?page=2 


原文地址:https://www.cnblogs.com/catkins/p/5270637.html