简单介绍一下MegatronLM中，ContextParallel相关的实现，主要是面向源码
这一节相关的Paper也挺多，也有一些不错的知乎上的文章：

Sequence Parallelism: Long Sequence Training from System Perspective
- Ring self attention，主要引入了分布式的计算。看论文描述应该是两轮，先算score，再算S * V
- 这里应该是要求同一个Q的S被放到同一个设备上了。没有做在线计算
- 所以这里是把Attention的activation从 S^2下降到了 S^2 / cp_world_size
Ring Attention with Blockwise Transformers for Near-Infinite Context
- 类似FlashAtten，做了在线计算，每次传K/V过去，直接算O
- 做了compute/communication的overlap
- activation下降到了O(S / cp_world_size)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models
- attention之前，qkv projection之后做一次all2all，计算还是在一个设备上，只不过不同设备是按照head做的切分
- 利用了all2all通信开销低的特点
USP: A Unified Sequence Parallelism Approach for Long Context Generative AI
- 融合了DS-UUlysses和RingAttention。分析了他们的优缺点
- 分析了4D Parallel

这里还有一个不错的书，讲了多维并行的策略，https://huggingface.co/spaces/nanotron/ultrascale-playbook，里面有一些不错的动图来讲解RingAttention

Implementation

MegatronLM中的代码主要分为两块，分别是Megatron-core中有关数据切分相关的diff。以及TransformerEngine中具体的实现。

Megatron-core中主要是这个函数get_batch_on_this_cp_rank：

TransformerEngine中的Attention支持USP，代码中叫做hieriarchical_cp。启动后，在计算Attention之前，会先通过A2A，把Sequence切分转化成head切分。然后再做RingAttention。

如果希望阅读代码的话，可以看这几个：

A2A & CausalMask

如果读代码的话，可能会在代码中看到这样一个函数reorder_seq_chunks_for_a2a_before_attn，可能会比较迷惑，这里解释一下。

在hieriarchical_cp中，第一维是a2a，第二维是p2p。
所以一个[4, 2]的cp，会在[1, 2, 3, 4]和[5, 6, 7, 8]这两组rank分别做a2a
配合上zigzag的数据分配，假设sequence为16，那么a2a之后会变成：
- [0, 15, 1, 14, 2, 13, 3, 12]和[4, 11, 5, 10, 6, 9, 7, 8]
此时这个reorder函数会发挥作用，把这里乱序的sequence转化成顺序的，得到：
- [0, 1, 2, 3, 12, 13, 14, 15]和[4, 5, 6, 7, 8, 9, 10, 11]
用这两个sequence做RingAttention。对应的causal mask为

此时会出现3种类型的CausalMask：
- diag，和单机情况一样。还是对角线的CausalMask
- left-half，表示只需要计算左半块
- lower-half，表示只需要计算下半块
这里的三种CausalMask，就对应了Forward函数中的一堆if-else，会根据当前的位置来使用不同的CausalMask

DeepSpeed Ulysses是将sequence拆分通过all2all转化成了head拆分，而TP在做attention的时候也是head拆分。这里来梳理一下他们的关系：

再配合上RingAttention的话，就是这样：

最后推荐一些相关的文章：