More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
未分类

Pytorch FSDP1 Introduction

整理一下FSDP1相关的实现,偏源码级,适合想读代码的同学来看 Core 核心流程如图 图中可以看到,FSDP虽然shard了模型,但是在计算(forward)的过程中,还是需要收集所有的参数做计算。所以他还是被划分成DataParallel Init 主要分为两块: 把模型切分成fsdp unit 把每一个fsdp unit的参数展开成FlatParameter 以一个CausalTransformer为例,模型会被组织成一个树形的结构。每一个节点都会有自己的Parameter,定义自己的forward计算逻辑。…

2026年1月1日 0条评论 105点热度 0人点赞 sheep 阅读全文
未分类

TeenyGrad

https://github.com/tinygrad/teenygrad 简易的深度学习框架,基于CPU上的numpy。在上层封装了Tensor的各种操作,自动微分。是一个用来学习自动微分引擎的比较不错的小项目。代码量也非常小。 同时有一个扩展版本的项目tinygrad,在此之上支持了多种后端,可以看作是pytorch的缩小版 个人感觉需要关注的点主要是三个: 数据的表示(Tensor) Autograd 常见操作的实现 Tensor Tensor是一个N维的数组,在此之上,支持: 多种常见的计算函数 自动微分 …

2025年12月7日 0条评论 225点热度 1人点赞 sheep 阅读全文
未分类

cs336 assignment2

Profile and benchmark backward相比于forward慢了2倍。 (update:我这里好像backward也把forward算上了,所以可能算出来应该是1:1的,但是经验值看,应该两者是有2~3倍的差距的。所以不清楚这里具体是什么原因) 相比之下标准差并不大,说明benchmark脚本没什么问题 还对比了一下用perf counter和cuda.Event,区别也不大,因为也没有什么排队延迟。为了方便控制,就都用cuda Event了 关掉warmup之后,结果明显不同,同时标准差也升高…

2025年12月6日 0条评论 197点热度 0人点赞 sheep 阅读全文
未分类

GAM

General Agentic Memory Via Deep Research 核心点分为两块: The Memorizer receives the client’s streaming history as a sequence of sessions, where it takes two actions: 1) it dynamically compresses the key historical information with a lightweight memory, and 2) it merg…

2025年11月27日 0条评论 166点热度 0人点赞 sheep 阅读全文
未分类

BottomUpAgent

论文:Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution 代码整体比较简单,很多细节并没有仔细的处理,不过思路值得学习一下,毕竟是一个training-free的方法,适合没有算力的小伙伴 当前大多数 LLM-based agents(基于大模型的****智能体****) 都采用 自上而下(Top-Down) 的设计方式: 人类先拆解任务 设计工作流 指定 agent 执行每一步 ➡️ 这种方式在基准任务上效果好…

2025年11月27日 0条评论 176点热度 0人点赞 sheep 阅读全文
未分类

cs336 lec10 inference

Inference workload 首先需要知道的是,inference和train的区别是train只需要执行一次,而模型部署之后,inference执行的次数会非常多。所以我们需要让inference变的高效,才能让模型更加“经济” 优化inference的一些应用点: 日常使用:chatbots, code completion 模型评估:llm as judge等 test-time compute,更多的thinking RL,做sample generation和打分 Metrics: TTFT,首t…

2025年11月9日 0条评论 227点热度 0人点赞 sheep 阅读全文
未分类

cs336 lec7 parallelism

这一节主要讲的是训练模型的时候的一些并行化的手段 并行化的原因:单个GPU的算力/内存都有限。需要更多的节点来扩展算力,并把模型放入到内存中。 我们的核心目的(也是并行化的核心目的),就是线性的scale。随着GPU数量上升,max model params和flops都可以线性上升。 GPT-NeoX-20B: An Open-Source Autoregressive Language Model 中非常好的一张图,展示了GPU并行训练时候的关键节点和通信链路。 * GPU/GPU通信可以走nvlink,带宽非…

2025年10月26日 0条评论 313点热度 1人点赞 sheep 阅读全文
未分类

cs336 lec 5 & 6 notes GPU CUDA

第五课主要讲GPU的一些基本知识,第六课则主要是讲如何做benchmark/profile,以及优化性能的一些方式 教授推荐了一个blog:https://horace.io/brrr_intro.html 很久之前学的CMU15418中也有GPU Architecture / Cuda Programming的东西,时间一看已经是2016年spring,接近10年了。 正好复习一下,然后结合这两个课程来介绍一下GPU相关的背景知识。 GPU Architecture * CPU,针对latency优化,很多的地方…

2025年10月9日 0条评论 331点热度 0人点赞 sheep 阅读全文
未分类

cs336 lec4 notes -> MoE

MoE的核心点是在attention block中的FFN层,加入多个FFN,然后根据输入选择不同的FFN来计算。 对应的一篇比较不错的综述:A Review of Sparse Expert Models in Deep Learning 作者同时也是switch transformer的作者,也是将MoE应用到了transformer中 MoE有两个比较大的好处: * 推理阶段,允许在相同的FLOPS下,使用更大参数量的模型。(直观感觉就是允许模型通过更多参数记忆更多世界知识) * 验证效果更好,activat…

2025年10月8日 0条评论 368点热度 0人点赞 sheep 阅读全文
未分类

cs336 lec3 notes

内容比较多,所以搞了一个mindmap: 第三课涉及了很多模型相关的知识,从基础的transformer出发,讲解了这些比较前沿的模型在上面的改动,以及为什么要这样改。所以这里需要有一个基础就是先学习过transformer 主题: * the best way to learn is hands-on experience * the second best way is to try to learn from others’ experience DL这块变得更加需要经验,所以实操才是关键。 还有一个需要考虑…

2025年10月5日 0条评论 348点热度 0人点赞 sheep 阅读全文
12345…33
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2026 年 2 月
  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS