简单介绍一下MegatronLM中,ContextParallel相关的实现,主要是面向源码 这一节相关的Paper也挺多,也有一些不错的知乎上的文章: Sequence Parallelism: Long Sequence Training from System Perspective Ring self attention,主要引入了分布式的计算。看论文描述应该是两轮,先算score,再算S * V 这里应该是要求同一个Q的S被放到同一个设备上了。没有做在线计算 所以这里是把Attention的act…