victory的博客

长安一片月,万户捣衣声

0%

CUDA | CUDA源程序结构

CUDA源程序的结构

采用CUDA并行计算编程模型进行编程一般分为以下几个步骤:

  1. 分配GPU内存(使用cudaMalloc()函数进行分配)。

  2. 从CPU内存中拷贝数据到GPU内存(cudaMemcpy())。

  3. 调用CUDA内核函数来完成程序指定的运算(xxxKernel<<<block, grid>>>())。

    在此过程中注意线程的组织方式,通过设置不同block、grid来进行组织。

  4. 将数据从GPU拷回CPU内存(cudaMemcpy())。

  5. 释放GPU内存空间(cudaFree)。