More than code - To Everyone Working Toward Good. cook notes 08

没拍图片，简单记录一下。牛排： * 简单放一点橄榄油揉一揉，中火煎。相对比较稳定 * 或者是放牛油，放多点然后大火煎。出来的效果也比较好，但是油多了很容易有很多明火，感觉还是有点危险蒸地瓜： * 切两头 * 水开锅后蒸，大火一般20分钟+ * 关火后焖一会，可能总共30分钟就差不多了。蒸出来的比较软也好吃青花鱼： * 解冻，吸水 * 烤箱25分钟不需要预热就好 * 出来了再放盐，以及放点柠檬汁去腥就可以烤土豆： * 切小块，一定要小块，不然不好熟 * 放到盘子里，放黑胡椒海盐，橄榄油，揉一揉 * 放到锡纸+…

2026年3月8日 0条评论 18点热度 0人点赞 sheep 阅读全文

文章：https://zhuanlan.zhihu.com/p/673903240 通信的实现方式分为两种类型：机器内通信与机器间通信。机器内通信： * 共享内存（QPI/UPI），比如：CPU与CPU之间的通信可以通过共享内存。 * PCIe，通常是CPU与GPU之间的通信。 * NVLink，通常是GPU与GPU之间的通信，也可以用于CPU与GPU之间的通信。机器间通信： * TCP/IP 网络协议。 * RDMA (Remote Direct Memory Access) 网络协议。 * InfiniBa…

2026年2月20日 0条评论 110点热度 0人点赞 sheep 阅读全文

过年回家正好前两天有点萎靡不太想学东西，来整理整理写一写25年的年终总结。今年事比较多，不过大体还是就两大块，工作，生活，还有一些其他小的思考（没空单独的写文章，就一起挤到年终总结里来）工作 GraphRAG 今年最核心的点了，整个人的工作重心从之前的存储引擎变成了GraphRAG，一个新的项目。主要感谢老板的认可，给我投了很多的人力，并搞项目的时候给了很多帮助，让我也SFT了一把，学习到了很多新方法。当然也要感谢GraphRAG小组的同学的支持，接业务，日常运维开发都比较辛苦。最后感觉结果还不错，虽然没有…

2026年2月15日 2条评论 176点热度 6人点赞 sheep 阅读全文

Overview API Communication management 通信需要通过communicator来进行。ncclCommInitAll来初始化communicator ncclCommDestroy用来销毁一个communicator，会等待pending operation ncclCommAbort立刻销毁communicator，取消pending operation，用来避免死锁 Collective communication ncclAllReduce, ncclBroadcast, n…

2026年2月10日 0条评论 138点热度 0人点赞 sheep 阅读全文

最上面的是zero bubble h1 第二张图是减少T_w之后的调度结果第三/四张图是不考虑内存的调度结果 bubble的计算逻辑： 3是1F1B，不放置w的调度结果。可以看到执行时间是： M * (F + B) + (P-1) * F + (P-1) * B 考虑这里的关键我认为在于看最后一个stage，因为最后一个stage没有任何依赖，一直都是跑满的。那么bubble size就是最后一个stage idle的时间，对应的就是图中的(P - 1) * (F + B…

2026年2月8日 0条评论 101点热度 0人点赞 sheep 阅读全文

MegatronLM中实现了这个global load balance，这里来整理一下论文：Demons in the Detail On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models 给aux loss起名，叫load balancing loss。其中fi是路由到第i个expert的token的比例，Pi是router分配给expert i的概率提到目前MoE framework实现的L…

2026年2月3日 0条评论 124点热度 0人点赞 sheep 阅读全文

在section 3 distributed training这一节给了很详细的背景介绍和分析，包括： - FSDP和pp的冲突点 - compute/communicate overlap的定义 - Critical batch size的分析，在appendix上还给了详细的推导过程，以及直观的理解 a (mini-)batch is used to approximate the true gradients of the weights with respect to the loss. Increasin…

2026年2月1日 0条评论 122点热度 0人点赞 sheep 阅读全文

https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md 基本概念 time：小size的时候，用来衡量通信操作的overhead 大size的时候，带宽项主导，所以应该看算法的带宽来预估性能 Bandwidth: Algorithm bandwidth 代表的是纯数据的bandwidth，不看具体的算法。就是输入的数据S 除以花费的时间t Bus bandwidth P2P的通信，上面的algorithm bandwidth就是真…

2026年1月30日 0条评论 124点热度 0人点赞 sheep 阅读全文

主要来自cs336的lecture和assignment 要做近似去重，用了类似bag of gram的思想。定义两个文档的jaccard similarity是文档中词的交集的数量除以词的并集的数量。 jaccard simiarity大于阈值的时候，就认为文档比较相似，会被过滤掉。但是jaccard similarity是两两计算的，复杂度是平方级别的，无法很好的拓展。定义文档的minhash为所有gram的hash值的最小值。这里有一个比较有意思的结论是: 证明思路也比较简单：假设两个document…

2026年1月30日 0条评论 109点热度 0人点赞 sheep 阅读全文

Worker worker抛异常，worker循环会捕获这个异常丢给主进程主进程再去做退出 worker调用system.exit() 主进程发现worker异常退出，也抛出Runtime error Main 主进程sys.exit() worker会存活一会，拉一些数据，然后发现主进程已经挂了，就会主动退出用os.exit直接退出。同样子进程也额外打印了一些数据。也自动退出了不过这里在退出的时候resource_tracker打印了有一些leak的资源。因为sys.exit()好像是会调用de…

2026年1月27日 0条评论 131点热度 0人点赞 sheep 阅读全文

12 3 4 5…34

cook notes 08

AI集群网络相关知识

2025年终总结

Demystifying NCCL notes

zero bubble PP

MoE global load balance 和MegatronLM中的实现

breadth first pipeline parallelism notes

nccl tests

minhash & LSH

torch dataloader 异常实验