0%

CUDA | CUDA源程序结构

发表于 2024-03-14 更新于 2024-07-11 分类于 AI ， AI工具链， CUDA ， CUDA源程序结构

CUDA源程序的结构

采用CUDA并行计算编程模型进行编程一般分为以下几个步骤：

分配GPU内存（使用cudaMalloc()函数进行分配）。
从CPU内存中拷贝数据到GPU内存（cudaMemcpy()）。
调用CUDA内核函数来完成程序指定的运算（xxxKernel<<<block, grid>>>()）。

在此过程中注意线程的组织方式，通过设置不同block、grid来进行组织。
将数据从GPU拷回CPU内存（cudaMemcpy()）。
释放GPU内存空间（cudaFree）。