GPU | FMA | victory的博客

什么是FMA？

GPU能够加速AI模型训练和推理速度的原因是GPU拥有众多的CUDA core、Tensor Core。

AI模型的核心计算是矩阵乘加运算，Tensor Core实现了不同浮点精度的矩阵乘加运算（FMA），从而加速了AI模型的训练、推理过程。

下面是使用FMA进行矩阵乘加运算D = A * B + C的CUDA示例代码：

#include 
#include 

// 假设矩阵A, B, C和D都是NxN大小的方阵
#define N 1024

__global__ void matrixFMA(float *A, float *B, float *C, float *D, int n) {
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;

    if (row < n && col < n) {
        float sum = 0.0f;
        for (int k = 0; k < n; ++k) {
            // 使用FMA操作计算每个元素
            sum = __fmaf_rn(A[row * n + k], B[k * n + col], sum);
        }
        D[row * n + col] = sum + C[row * n + col];
    }
}

int main() {
    float *A, *B, *C, *D;
    float *d_A, *d_B, *d_C, *d_D;

    // 分配主机内存
    A = new float[N * N];
    B = new float[N * N];
    C = new float[N * N];
    D = new float[N * N];

    // 初始化输入数据
    for (int i = 0; i < N * N; i++) {
        A[i] = static_cast(i);
        B[i] = static_cast(2 * i);
        C[i] = static_cast(3 * i);
    }

    // 分配设备内存
    cudaMalloc(&d_A, N * N * sizeof(float));
    cudaMalloc(&d_B, N * N * sizeof(float));
    cudaMalloc(&d_C, N * N * sizeof(float));
    cudaMalloc(&d_D, N * N * sizeof(float));

    // 将输入数据复制到设备
    cudaMemcpy(d_A, A, N * N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, B, N * N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_C, C, N * N * sizeof(float), cudaMemcpyHostToDevice);

    // 配置并启动内核
    int threadsPerBlock = 16;
    int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
    dim3 dimGrid(blocksPerGrid, blocksPerGrid, 1);
    dim3 dimBlock(threadsPerBlock, threadsPerBlock, 1);
    matrixFMA<<>>(d_A, d_B, d_C, d_D, N);

    // 将结果从设备复制回主机
    cudaMemcpy(D, d_D, N * N * sizeof(float), cudaMemcpyDeviceToHost);

    // 验证结果（可选）
    // ...

    // 释放内存
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cudaFree(d_D);
    delete[] A;
    delete[] B;
    delete[] C;
    delete[] D;

    return 0;
}

FMA与Tensor Core

Tensor Core 采用融合乘法加法（FMA）的方式来高效地处理计算任务。每个 Tensor Core 每周期能执行 4x4x4 GEMM，64 个浮点乘法累加（FMA）运算。