More than code - To Everyone Working Toward Good. CS336 Assignment-1

纯记录，写的比较糊，包括assignment1的实验和习题的解答 BPE Tokenizer Problem (unicode1): Understanding Unicode (1 point) (a) What Unicode character does chr(0) return? 0这个码点代表的字符 (b) How does this character’s string representation (repr()) differ from its printed representation? pr…

2025年10月5日 1条评论 587点热度 1人点赞 sheep 阅读全文

通过SARSA和QLearning来理解一下on policy和off policy 1. Q-learning（Off-policy）更新公式： Q(s,a) \leftarrow Q(s,a) + \alpha \Big( r + \gamma \max_{a'} Q(s',a') - Q(s,a)\Big) Q-learning 在更新时，使用的是下一状态 s' 中的最大动作价值 \max_{a'} Q(s',a')，即假设下一步总是采取最优动作。这意味着它学习的是最优策略（greedy policy…

2025年9月21日 0条评论 276点热度 0人点赞 sheep 阅读全文

TLDR：没睡好瞎bb的。已经Q3快结束了才来写这个半年review，或者应该叫3个Q review之类的。打算把之前脑子里想的一些事情列一列先。不过毕竟脑子也是有局部性的，对近期发生的事情感受会强烈一些，更久之前的相对来说则弱一些。所以在现在这个时间节点上（9月21号），我写的东西更偏向于Q3的一些事情。以及最近身边发生的一些事情，trigger了我的一些想法，就也在这里整理整理。主要变化的点就是是工作上，RAG方向的事情算是有了一些起色。工作的内容也做了很多新的东西（虽然做的还有挺多进步的空间的）： *…

2025年9月21日 0条评论 423点热度 2人点赞 sheep 阅读全文

记得好久之前看过一篇异常相关的文章，讲的主要是编译器插入的桩（怎么做的RAII等）今天看CPython的时候看到了他的异常处理机制，和cpp不太一样，就延伸问了问。直跳方案与表驱动异常：例子与定义直跳（direct jumps + 就地清理）示例： C 语言：没有语言级异常，结构化控制流编译成条件/无条件跳转；资源清理靠就地代码或“goto cleanup”惯用法。部分字节码 VM（如 Lua 系列）：通过显式指令（如 close/upvalue 关闭、return）配合跳转完成离开作用域的清理；错误传播多…

2025年9月10日 0条评论 346点热度 0人点赞 sheep 阅读全文

https://github.com/1517005260/graph-rag-agent/tree/master 这个项目看到的，有一个deep research agent GPT5的评价：结论先给：区别不只“是不是用图”。普通 DeepResearchAgent（标准模式=DeepResearchTool）是“多轮思考+双通道检索（KB+KG）+答案验证”的工作流；DeeperResearchTool 把“图”升级为决策与表示的中枢，并叠加社区感知、CoE 探索、证据链与矛盾检测等全链路能力。核心差异图…

2025年9月1日 0条评论 301点热度 0人点赞 sheep 阅读全文

deepwiki输出的质量比较好，但是英文的读起来没那么顺畅，GPT帮忙写了个翻译的脚本我个人用的是gemini2.5 flash，可以自行配置。把代码粘贴到油猴中就可以了 // ==UserScript== // @name DeepWiki Instant Translator (EN↔ZH) // @namespace https://chat.openai.com/ // @version 0.1.0 // @description Translate DeepWiki pages on the fly …

2025年8月31日 0条评论 421点热度 0人点赞 sheep 阅读全文

好久不写了简单看点文章写写： ComoRAG 个人理解就是几种GraphRAG的方法合起来，上面搞了一个Agent混合检索三层： * 事实层就是类似HippoRAG这种知识图谱用来回答事实性问题的 * 语意层就是总结类，比如RAPTOR，MS GraphRAG * Episodic就是时序类，这里是用滑动窗口做的，感觉可以套一些其他的时序图的方法这里时序类的做法是把长文本做滑动窗口式的总结，用来回答全文脉络这种问题。个人感觉主要就是针对小说这种场景。或者是放到Memory上，用户对话的每一段搞一个滑动窗口总结。…

2025年8月27日 0条评论 290点热度 0人点赞 sheep 阅读全文

User 为什么在PPO中，还需要取两个suff的min，为什么不直接用clip呢 Gemini 这是一个非常棒的问题，直接触及了PPO-Clip算法设计的核心思想。简单来说，同时保留surr1（未截断项）和surr2（截断项）并取其min，是为了构建一个悲观的、保守的目标函数下界（Pessimistic Bound），从而实现更安全、更稳定的策略更新。只使用clip项是不够的，因为它在某些情况下会破坏学习信号。让我们通过分析优势函数 \hat{A}_t 的正负两种情况来理解这一点：情况…

2025年8月4日 0条评论 415点热度 0人点赞 sheep 阅读全文

策略梯度算法中，策略回报是什么 Gemini 在策略梯度算法中，“策略回报”通常指的是期望回报（Expected Return），也就是我们希望最大化的目标函数。让我们来分解这个概念： 1. 回报 (Return) 首先，在强化学习中，回报 (Return)，通常用 G_t 表示，是指从某一个时间点 t 开始，直到整个回合（episode）结束，所能获得的未来奖励的总和。为了平衡短期和长期奖励，我们常常使用带折扣因子的回报： G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 384点热度 1人点赞 sheep 阅读全文

深度强化学习的基础，要好好看 CartPole环境中，动作只有两个，向左移动和向右移动，但是状态是无限的，因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。如果动作是无限的，神经网络的输入可以是(s, a)，而如果动作是离散的，则可以把当前状态输入进去，得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。需要注意的是因为Q learning有在动作中取max的操作，所以没办法处理非离散的动作。核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 330点热度 0人点赞 sheep 阅读全文

1 2 345…33

CS336 Assignment-1

SARSA & QLearning V2

半年review

CPP异常处理

GraphRAGAgent

DeepWiki翻译

ComoRAG & LeanRAG & FromRankToSelection

PPO

REINFORCE算法

DQN