CUDA核心
和Tensor Core
是NVIDIA GPU
中两种不同类型的计算核心且两种核心存在明显的差别,CUDA核心数量
和Tensor Core数量
是反映GPU计算性能的重要参数,那么CUDA核心与Tensor Core到底是什么?
指令集 | 指令集以及国产处理器现状
- 指令集以及对应的国产处理器
- CISC
- X86
- 海光
- 兆芯
- ……
- X86
- RISC
- ARM
- 鲲鹏、飞腾、珠峰
- RISC-V
- MIPS
- 龙芯 LoongArch
- Alpha
- 申威 SW_64
- ……
- ARM
- CISC
后端优化 | 循环优化
采用深度学习编译器对深度学习代码进行编译时,在编译器后端会对IR代码进行后端优化,循环优化就包括在后端优化中,后端优化能够加速代码的运行效率。深度学习编译器编译流程如下图所示:
RDMA | IB与RoCEv2的对比
发表于
分类于
计算机基础
,
计算机网络
,
RDMA
,
IB与RoCEv2的对比
TVM | TVM介绍
CUDA | CUDA的新竞争者
AI时代,Nvidia作为HPC的头号玩家,其手中的主要利器有:高算力GPU、高速互联设备、CUDA,其中CUDA可以称之为Nvidia的护城河,只有使用CUDA才能利用Nvidia GPU进行高效的运行AI算法。
AI基础设施 | 什么是智算中心
- 三种数据中心
- 通算中心(通用服务器-以CPU为主要芯片)
- 智算中心(智算服务器-以GPU/NPU/TPU等加速芯片为主)
- 超算中心(超级计算机)
VPN | 什么是VPN
在工作、或学习中,如果连接的是内部网络,则可以直接访问内部网络资源,如果在家或出差时想要访问内部网络资源,常需要通过VPN
才能访问公司/学校内部网络资源
。那么VPN到底是什么呢?
TCP/IP | 秒懂TCPIP
数据包传输过程中都用到了哪些协议?
分布式训练集合通信以及集合通信原语
发表于
分类于
AI
,
深度学习
,
大模型
,
分布式训练
,
集合通信以及集合通信原语
大模型
的训练需要用到多个配有GPU
的节点,GPU间通过集合通信原语
进行通信,从而实现GPU
间的数据交换
和共享
。