https://huggingface.co/spaces/nanotron/ultrascale-playbook 一上来有一个memory usage breakdown的图,展示了不同参数下,各个部分占用比重。 Memory usage breakdown llama3 8B 256的sequence length 打开mixed precision可以缩小activation memory。这里大概是认为从FP32变成了FP8,所以activation memory减少到了28G 打开zero后,P/G/O…