CUDA源程序的结构
采用CUDA并行计算编程模型进行编程一般分为以下几个步骤:
分配GPU内存(使用cudaMalloc()函数进行分配)。
从CPU内存中拷贝数据到GPU内存(cudaMemcpy())。
调用CUDA内核函数来完成程序指定的运算(xxxKernel<<<block, grid>>>())。
在此过程中注意线程的组织方式,通过设置不同block、grid来进行组织。
将数据从GPU拷回CPU内存(cudaMemcpy())。
释放GPU内存空间(cudaFree)。