分布式训练集合通信以及集合通信原语 发表于 2024-07-17 分类于 AI , 深度学习 , 大模型 , 分布式训练 , 集合通信以及集合通信原语 大模型的训练需要用到多个配有GPU的节点,GPU间通过集合通信原语进行通信,从而实现GPU间的数据交换和共享。 通信原语的具体内容参考:分布式训练 – 第3篇 - 分布式训练常用的集合通信及其通信原语 - 知乎 (zhihu.com),这篇文章分析、总结的非常到位,此处不再额外总结。