读一下知乎这篇文章:https://zhuanlan.zhihu.com/p/456863215 在GPT2中,对layer normalization做了优化 把layer norm从残差层后面放到了残差层内部。 总结看来,Pre-LN带来的好处,基本都是因为不需要做warm-up引起的。而引起这一差异的根本原因是: - Post-LN在输出层的gradient norm较大,且越往下层走,gradient norm呈现下降趋势。这种情况下,在训练初期若采用一个较大的学习率,容易引起模型的震荡。 - Pre-LN…