More than code

未分类
未分类

Pytorch Data Introduction

这篇文章来介绍一下torch/util/data目录下的一些组件。主要就是torch提供的Dataset和Dataloader Dataset负责做抽象数据的访问方式,提供两种Dataset。一般来说对应底层的存储方式 Map,随机访问,给定index,给出sample Iterable,顺序访问,给定一个iterator,每次next得到sample Dataloader负责做数据的读取,包含三个组件 Sampler 负责生成下一个访问的数据的index,给Map类型的dataset使用 支持一个BatchSam…

2026年1月20日 0条评论 82点热度 0人点赞 sheep 阅读全文
未分类

cs336 assignment4

2 Filtering common crawl look at cc CC-MAIN-20250417135010-20250417165010-00065.warc.gz里面就是原始的html .wet的就是提取的plain text。 一堆奇奇怪怪的网站 http://10www.chinatikfans.com/home.php?mod=space&uid=4693&do=blog&classid=104&view=me url是accessable的 看起来像是把html中…

2026年1月19日 0条评论 76点热度 0人点赞 sheep 阅读全文
未分类

Parallelism Mesh Zoo Notes

推荐的两本书 https://jax-ml.github.io/scaling-book/ https://huggingface.co/spaces/nanotron/ultrascale-playbook 为什么需要device mesh: device mesh are a reflection of the physical constraints of networking between GPUs 根据物理结构来选择不同的并行策略,优化communication开销 如何思考device mesh: W…

2026年1月18日 0条评论 72点热度 0人点赞 sheep 阅读全文
未分类

Visualizing 6D Mesh Parallelism Notes

https://main-horse.github.io/posts/visualizing-6d/ DataParallel Identical copies of the model exist on every accelerator. 通过all reduce汇聚梯度 这里还提到了fsdp2这篇论文:SimpleFSDP: Simpler Fully Sharded Data Parallel with torch.compile backward之后,会进行dp link之间的通信 同时和下一层的back…

2026年1月18日 0条评论 65点热度 0人点赞 sheep 阅读全文
未分类

MegatronLM ContextParallel

简单介绍一下MegatronLM中,ContextParallel相关的实现,主要是面向源码 这一节相关的Paper也挺多,也有一些不错的知乎上的文章: Sequence Parallelism: Long Sequence Training from System Perspective Ring self attention,主要引入了分布式的计算。看论文描述应该是两轮,先算score,再算S * V 这里应该是要求同一个Q的S被放到同一个设备上了。没有做在线计算 所以这里是把Attention的act…

2026年1月10日 0条评论 89点热度 0人点赞 sheep 阅读全文
未分类

MegatronLM DataParallel

这篇文章来介绍一下MegatronLM中DataParallel相关的实现,适合希望阅读源码的同学来看 主要会涉及到DDP/FSDP,distributed optimizer会单独再出一篇文章。 官方有一篇设计文档,可以简单看看https://docs.nvidia.com/megatron-core/developer-guide/latest/api-guide/custom_fsdp.html# DDP MegatronLM中DDP的代码主要在core/distributed/distributed…

2026年1月10日 0条评论 97点热度 1人点赞 sheep 阅读全文
未分类

MegatronLM ExpertParallel

这篇文章来介绍一下MegatronLM中,有关EP部分的代码。 因为我也是头一次接触MoE相关的,同时并没有对比过其他系统(DeepSpeed等)的实现,所以这块知识单纯讲一下MegatronLM中的一些细节。 理论基础的话,我在看相关代码的时候,看了这几篇Paper: GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding Switch Transformers: Scaling to Trillion Pa…

2026年1月10日 0条评论 102点热度 0人点赞 sheep 阅读全文
未分类

MegatronLM PipelineParallel

这篇文章来介绍一下MegatronLM中,PipelineParallel的实现,主要是偏源码 主要相关的论文是这一篇:Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM 还有经典的一些前置的paper: GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism PipeDream: Generalized Pipeline Parallelism f…

2026年1月10日 0条评论 78点热度 0人点赞 sheep 阅读全文
未分类

MegatronLM SequenceParallel

MegatronLM的SequenceParalle主要是针对TP做的 DeepSpeed-Ulysses/RingAttention这种在MegatronLM中叫ContextParallel,会有单独的一篇文章介绍 论文主要是这一篇:Reducing Activation Recomputation in Large Transformer Models SequenceParallel的逻辑相对简单,之前TensorParallel的设计主要针对图中的MLP/Attention层,其他层的输入输出在所有的tp…

2026年1月10日 0条评论 68点热度 0人点赞 sheep 阅读全文
未分类

MegatronLM TensorParallel

这篇文章来介绍一下MegatronLM中,TensorParallel相关的实现,主要是面向源码。 相关论文:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism,推荐先看一下 MegatronLM实现的TensorParallel需要对模型结构有改动,用支持并行计算的层来替换掉原始模型中的那些层,并不是类似Torch FSDP这种对模型结构无感知的实现方法。 所以在阅读代码的过程中,主要需要看两个…

2026年1月10日 0条评论 79点热度 0人点赞 sheep 阅读全文
12345…13
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2026 年 2 月
  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS