这一节主要讲的是训练模型的时候的一些并行化的手段 并行化的原因:单个GPU的算力/内存都有限。需要更多的节点来扩展算力,并把模型放入到内存中。 我们的核心目的(也是并行化的核心目的),就是线性的scale。随着GPU数量上升,max model params和flops都可以线性上升。 GPT-NeoX-20B: An Open-Source Autoregressive Language Model 中非常好的一张图,展示了GPU并行训练时候的关键节点和通信链路。 * GPU/GPU通信可以走nvlink,带宽非…