MegatronLM的SequenceParalle主要是针对TP做的 DeepSpeed-Ulysses/RingAttention这种在MegatronLM中叫ContextParallel,会有单独的一篇文章介绍 论文主要是这一篇:Reducing Activation Recomputation in Large Transformer Models SequenceParallel的逻辑相对简单,之前TensorParallel的设计主要针对图中的MLP/Attention层,其他层的输入输出在所有的tp…