More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
RL

SARSA & QLearning V2

通过SARSA和QLearning来理解一下on policy和off policy 1. Q-learning(Off-policy) 更新公式: Q(s,a) \leftarrow Q(s,a) + \alpha \Big( r + \gamma \max_{a'} Q(s',a') - Q(s,a)\Big) Q-learning 在更新时,使用的是 下一状态 s' 中的最大动作价值 \max_{a'} Q(s',a'),即假设下一步总是采取最优动作。 这意味着它学习的是 最优策略(greedy policy…

2025年9月21日 0条评论 212点热度 0人点赞 sheep 阅读全文
未分类

半年review

TLDR:没睡好瞎bb的。 已经Q3快结束了才来写这个半年review,或者应该叫3个Q review之类的。 打算把之前脑子里想的一些事情列一列先。不过毕竟脑子也是有局部性的,对近期发生的事情感受会强烈一些,更久之前的相对来说则弱一些。所以在现在这个时间节点上(9月21号),我写的东西更偏向于Q3的一些事情。 以及最近身边发生的一些事情,trigger了我的一些想法,就也在这里整理整理。 主要变化的点就是是工作上,RAG方向的事情算是有了一些起色。工作的内容也做了很多新的东西(虽然做的还有挺多进步的空间的): *…

2025年9月21日 0条评论 317点热度 2人点赞 sheep 阅读全文
未分类

CPP异常处理

记得好久之前看过一篇异常相关的文章,讲的主要是编译器插入的桩(怎么做的RAII等) 今天看CPython的时候看到了他的异常处理机制,和cpp不太一样,就延伸问了问。 直跳方案与表驱动异常:例子与定义 直跳(direct jumps + 就地清理)示例: C 语言:没有语言级异常,结构化控制流编译成条件/无条件跳转;资源清理靠就地代码或“goto cleanup”惯用法。 部分字节码 VM(如 Lua 系列):通过显式指令(如 close/upvalue 关闭、return)配合跳转完成离开作用域的清理;错误传播多…

2025年9月10日 0条评论 259点热度 0人点赞 sheep 阅读全文
未分类

GraphRAGAgent

https://github.com/1517005260/graph-rag-agent/tree/master 这个项目看到的,有一个deep research agent GPT5的评价: 结论先给:区别不只“是不是用图”。普通 DeepResearchAgent(标准模式=DeepResearchTool)是“多轮思考+双通道检索(KB+KG)+答案验证”的工作流;DeeperResearchTool 把“图”升级为决策与表示的中枢,并叠加社区感知、CoE 探索、证据链与矛盾检测等全链路能力。 核心差异 图…

2025年9月1日 0条评论 238点热度 0人点赞 sheep 阅读全文
未分类

DeepWiki翻译

deepwiki输出的质量比较好,但是英文的读起来没那么顺畅,GPT帮忙写了个翻译的脚本 我个人用的是gemini2.5 flash,可以自行配置。把代码粘贴到油猴中就可以了 // ==UserScript== // @name DeepWiki Instant Translator (EN↔ZH) // @namespace https://chat.openai.com/ // @version 0.1.0 // @description Translate DeepWiki pages on the fly …

2025年8月31日 0条评论 320点热度 0人点赞 sheep 阅读全文
未分类

ComoRAG & LeanRAG & FromRankToSelection

好久不写了简单看点文章写写: ComoRAG 个人理解就是几种GraphRAG的方法合起来,上面搞了一个Agent混合检索 三层: * 事实层就是类似HippoRAG这种知识图谱用来回答事实性问题的 * 语意层就是总结类,比如RAPTOR,MS GraphRAG * Episodic就是时序类,这里是用滑动窗口做的,感觉可以套一些其他的时序图的方法 这里时序类的做法是把长文本做滑动窗口式的总结,用来回答全文脉络这种问题。个人感觉主要就是针对小说这种场景。或者是放到Memory上,用户对话的每一段搞一个滑动窗口总结。…

2025年8月27日 0条评论 224点热度 0人点赞 sheep 阅读全文
RL

PPO

User 为什么在PPO中,还需要取两个suff的min,为什么不直接用clip呢 Gemini 这是一个非常棒的问题,直接触及了PPO-Clip算法设计的核心思想。 简单来说,同时保留surr1(未截断项)和surr2(截断项)并取其min,是为了 构建一个悲观的、保守的目标函数下界(Pessimistic Bound),从而实现更安全、更稳定的策略更新。 只使用clip项是不够的,因为它在某些情况下会破坏学习信号。 让我们通过分析 优势函数 \hat{A}_t 的正负两种情况来理解这一点: 情况…

2025年8月4日 0条评论 326点热度 0人点赞 sheep 阅读全文
RL

REINFORCE算法

策略梯度算法中,策略回报是什么 Gemini 在策略梯度算法中,“策略回报”通常指的是期望回报(Expected Return),也就是我们希望最大化的目标函数。 让我们来分解这个概念: 1. 回报 (Return) 首先,在强化学习中,回报 (Return),通常用 G_t 表示,是指从某一个时间点 t 开始,直到整个回合(episode)结束,所能获得的未来奖励的总和。为了平衡短期和长期奖励,我们常常使用带折扣因子的回报: G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 306点热度 1人点赞 sheep 阅读全文
RL

DQN

深度强化学习的基础,要好好看 CartPole环境中,动作只有两个,向左移动和向右移动,但是状态是无限的,因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。 如果动作是无限的,神经网络的输入可以是(s, a),而如果动作是离散的,则可以把当前状态输入进去,得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。 需要注意的是因为Q learning有在动作中取max的操作,所以没办法处理非离散的动作。 核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 261点热度 0人点赞 sheep 阅读全文
Agent/RAG

AIME1.5

看了下AIME1.5,https://arxiv.org/pdf/2507.11988,这里就简单总结一下。 三点核心: * 自适应Planner * 就是ReAct模式,子Agent执行任务之后返回的结果会让planner去调整计划 * 动态Actor * 这个思路很棒,是根据子Agent的任务,动态组装一个agent,而不是预定义的固有的agent。 * 这个动态的Actor在prompt,使用的工具,使用的知识都是动态组装的。 * 应该是根据子Agent的任务,先写一个子agent的prompt出来,比如你是…

2025年7月27日 0条评论 228点热度 0人点赞 sheep 阅读全文
12345…31
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS