回顾一下CPU的组成以及各组件的功能。
加速芯片 | 不同加速芯片的特点
当前,AI服务器
的芯片构成为”CPU+加速芯片
“,加速芯片主要有CPU
、FPGA
和ASIC
等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,从而加速模型的训练(training)、推理(Inference)过程。
CPU | 三条国产CPU发展路线
三条国产CPU发展路线:
高速互联 | PCIe与NVLink的对比
AI
算法极大程度上依赖于大数据
(Big Data
),AI 算法的训练对机器的算力
以及数据传输能力有着非常高的要求。算力问题的解决是通过提升GPU
、NPU
的计算能力,并且将多块GPU/NPU
连接起来组成一个算力网络
(Computing Force Network, CFN
)。算力网络中的不同GPU/NPU需要进行互联,GPU/NPU也需要与CPU进行互联,从而共同协作完成大量数据的运算。
AI Native | 全新软件开发模式
AI
的迅猛发展,对各行各业都带来了巨大的冲击,同时也带来了新的机会,催生了AI+
的产业新模式,例如AI+教育
、AI+交通
、AI+医疗
、AI+农业
等,大量的AI+应用/项目已成熟落地。AI+应用的出现、普及改变了传统的软件开发模式
,实现了focus on 软件到focus on 模型的转变。
计算机网络 | RDMA以及支持RDMA的网络协议
RDMA
(Remote Direct Memory Access)技术起初是为了缓解CPU
的压力,提高CPU利用率,从而提高系统性能。随着人工智能
(AI
)、AIGC
以及大模型(LLM)
的快速发展,AI对于计算设备的算力
以及数据处理能力有了更高的要求。
Some Ideas | 工作一周年快乐
Triton | 基于Triton语言实现的算子库FlagGems的环境配置以及测试
FlagGems介绍
FlagGems
是基于OpenAI
Triton
编程语言实现的高性能通用算子库
,能够为大语言模型
提供一系列可应用于PyTorch
框架的算子,加速模型的推理
与训练
。FlagGems通过对
PyTorch的后端aten算子进行覆盖重写
,实现算子库的无缝替换,使用户能够在不修改模型代码的情况下平稳地切换到triton算子库。FlagGems不会影响aten后端的正常使用。在pytorch中,核心的张量操作以及底层硬件通信是由ATen库实现的,当ATen需要执行一些可以在GPU上加速的操作时,它会通过CUDA来调用GPU的资源。具体来说,pytorch提供了易于使用的高层API,而ATen则提供张量计算和底层硬件通信。
Github | github加速器
每一个programmer都会使用github
托管自己编写的代码,或从github下载、学习优秀开源代码。但是,经常会遇到github打开慢
或打不开
的情况。
解决办法:下载github加速访问软件fastgithub
即可丝滑访问github。
计算机网络 | 网关是如何实现通信的
在网络的使用过程中,“网关”是一个非常常见的术语,那么网关到底是什么?网关起到什么作用?