未分类 - More than code

General Agentic Memory Via Deep Research 核心点分为两块： The Memorizer receives the client’s streaming history as a sequence of sessions, where it takes two actions: 1) it dynamically compresses the key historical information with a lightweight memory, and 2) it merg…

2025年11月27日 0条评论 4点热度 0人点赞 sheep 阅读全文

论文：Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution 代码整体比较简单，很多细节并没有仔细的处理，不过思路值得学习一下，毕竟是一个training-free的方法，适合没有算力的小伙伴当前大多数 LLM-based agents（基于大模型的****智能体****）都采用自上而下（Top-Down）的设计方式：人类先拆解任务设计工作流指定 agent 执行每一步 ➡️ 这种方式在基准任务上效果好…

2025年11月27日 0条评论 5点热度 0人点赞 sheep 阅读全文

Inference workload 首先需要知道的是，inference和train的区别是train只需要执行一次，而模型部署之后，inference执行的次数会非常多。所以我们需要让inference变的高效，才能让模型更加“经济” 优化inference的一些应用点：日常使用：chatbots, code completion 模型评估：llm as judge等 test-time compute，更多的thinking RL，做sample generation和打分 Metrics: TTFT，首t…

2025年11月9日 0条评论 84点热度 0人点赞 sheep 阅读全文

这一节主要讲的是训练模型的时候的一些并行化的手段并行化的原因：单个GPU的算力/内存都有限。需要更多的节点来扩展算力，并把模型放入到内存中。我们的核心目的（也是并行化的核心目的），就是线性的scale。随着GPU数量上升，max model params和flops都可以线性上升。 GPT-NeoX-20B: An Open-Source Autoregressive Language Model 中非常好的一张图，展示了GPU并行训练时候的关键节点和通信链路。 * GPU/GPU通信可以走nvlink，带宽非…

2025年10月26日 0条评论 143点热度 1人点赞 sheep 阅读全文

第五课主要讲GPU的一些基本知识，第六课则主要是讲如何做benchmark/profile，以及优化性能的一些方式教授推荐了一个blog：https://horace.io/brrr_intro.html 很久之前学的CMU15418中也有GPU Architecture / Cuda Programming的东西，时间一看已经是2016年spring，接近10年了。正好复习一下，然后结合这两个课程来介绍一下GPU相关的背景知识。 GPU Architecture * CPU，针对latency优化，很多的地方…

2025年10月9日 0条评论 197点热度 0人点赞 sheep 阅读全文

MoE的核心点是在attention block中的FFN层，加入多个FFN，然后根据输入选择不同的FFN来计算。对应的一篇比较不错的综述：A Review of Sparse Expert Models in Deep Learning 作者同时也是switch transformer的作者，也是将MoE应用到了transformer中 MoE有两个比较大的好处： * 推理阶段，允许在相同的FLOPS下，使用更大参数量的模型。（直观感觉就是允许模型通过更多参数记忆更多世界知识） * 验证效果更好，activat…

2025年10月8日 0条评论 209点热度 0人点赞 sheep 阅读全文

内容比较多，所以搞了一个mindmap：第三课涉及了很多模型相关的知识，从基础的transformer出发，讲解了这些比较前沿的模型在上面的改动，以及为什么要这样改。所以这里需要有一个基础就是先学习过transformer 主题： * the best way to learn is hands-on experience * the second best way is to try to learn from others’ experience DL这块变得更加需要经验，所以实操才是关键。还有一个需要考虑…

2025年10月5日 0条评论 182点热度 0人点赞 sheep 阅读全文

纯记录，写的比较糊，包括assignment1的实验和习题的解答 BPE Tokenizer Problem (unicode1): Understanding Unicode (1 point) (a) What Unicode character does chr(0) return? 0这个码点代表的字符 (b) How does this character’s string representation (repr()) differ from its printed representation? pr…

2025年10月5日 1条评论 281点热度 1人点赞 sheep 阅读全文

TLDR：没睡好瞎bb的。已经Q3快结束了才来写这个半年review，或者应该叫3个Q review之类的。打算把之前脑子里想的一些事情列一列先。不过毕竟脑子也是有局部性的，对近期发生的事情感受会强烈一些，更久之前的相对来说则弱一些。所以在现在这个时间节点上（9月21号），我写的东西更偏向于Q3的一些事情。以及最近身边发生的一些事情，trigger了我的一些想法，就也在这里整理整理。主要变化的点就是是工作上，RAG方向的事情算是有了一些起色。工作的内容也做了很多新的东西（虽然做的还有挺多进步的空间的）： *…

2025年9月21日 0条评论 264点热度 2人点赞 sheep 阅读全文

记得好久之前看过一篇异常相关的文章，讲的主要是编译器插入的桩（怎么做的RAII等）今天看CPython的时候看到了他的异常处理机制，和cpp不太一样，就延伸问了问。直跳方案与表驱动异常：例子与定义直跳（direct jumps + 就地清理）示例： C 语言：没有语言级异常，结构化控制流编译成条件/无条件跳转；资源清理靠就地代码或“goto cleanup”惯用法。部分字节码 VM（如 Lua 系列）：通过显式指令（如 close/upvalue 关闭、return）配合跳转完成离开作用域的清理；错误传播多…

2025年9月10日 0条评论 223点热度 0人点赞 sheep 阅读全文

12 3 4 5…11

GAM

BottomUpAgent

cs336 lec10 inference

cs336 lec7 parallelism

cs336 lec 5 & 6 notes GPU CUDA

cs336 lec4 notes -> MoE

cs336 lec3 notes

CS336 Assignment-1

半年review

CPP异常处理