智算网络包含Scale-up网络和Scale-out网络两张网络。
Scale-up网络描述的是单个机器内GPU、CPU、内存等连接在一起构成的网络,着重单机性能的提升,例如通过增加GPU的数量或增加CPU的数量、增加内存容量来提升单机的计算效率与吞吐量。单机内部不同芯片的连接采用PCIe,GPU之间的连接也可通过NVLink进行连接。
Scale-out网络描述的是多个算力机器连接起来构成的网络,属于机间互联,目的是为了突破单机性能,通过机间互联合并算力组成一个大的算力网络为大数据处理、大模型训练提供支持。不同机器间的连接可采用RDMA(比较高效的两种是RoCEv2和IB)。
参考链接1:智算网络中Scale-out网络和Scale-up网络的本质区别是什么?
参考链接2:用于智算场景的Scale-up互联技术分析
参考链接3:CXL,AI时代的“运力”引擎
参考链接4:Scale-up与Scale-out有什么不同?