victory的博客

长安一片月,万户捣衣声

0%

分布式训练集合通信以及集合通信原语

大模型的训练需要用到多个配有GPU的节点,GPU间通过集合通信原语进行通信,从而实现GPU间的数据交换共享

通信原语的具体内容参考:分布式训练 – 第3篇 - 分布式训练常用的集合通信及其通信原语 - 知乎 (zhihu.com),这篇文章分析、总结的非常到位,此处不再额外总结。