RL - More than code

通过SARSA和QLearning来理解一下on policy和off policy 1. Q-learning（Off-policy）更新公式： Q(s,a) \leftarrow Q(s,a) + \alpha \Big( r + \gamma \max_{a'} Q(s',a') - Q(s,a)\Big) Q-learning 在更新时，使用的是下一状态 s' 中的最大动作价值 \max_{a'} Q(s',a')，即假设下一步总是采取最优动作。这意味着它学习的是最优策略（greedy policy…

2025年9月21日 0条评论 327点热度 0人点赞 sheep 阅读全文

User 为什么在PPO中，还需要取两个suff的min，为什么不直接用clip呢 Gemini 这是一个非常棒的问题，直接触及了PPO-Clip算法设计的核心思想。简单来说，同时保留surr1（未截断项）和surr2（截断项）并取其min，是为了构建一个悲观的、保守的目标函数下界（Pessimistic Bound），从而实现更安全、更稳定的策略更新。只使用clip项是不够的，因为它在某些情况下会破坏学习信号。让我们通过分析优势函数 \hat{A}_t 的正负两种情况来理解这一点：情况…

2025年8月4日 0条评论 472点热度 0人点赞 sheep 阅读全文

策略梯度算法中，策略回报是什么 Gemini 在策略梯度算法中，“策略回报”通常指的是期望回报（Expected Return），也就是我们希望最大化的目标函数。让我们来分解这个概念： 1. 回报 (Return) 首先，在强化学习中，回报 (Return)，通常用 G_t 表示，是指从某一个时间点 t 开始，直到整个回合（episode）结束，所能获得的未来奖励的总和。为了平衡短期和长期奖励，我们常常使用带折扣因子的回报： G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 434点热度 1人点赞 sheep 阅读全文

深度强化学习的基础，要好好看 CartPole环境中，动作只有两个，向左移动和向右移动，但是状态是无限的，因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。如果动作是无限的，神经网络的输入可以是(s, a)，而如果动作是离散的，则可以把当前状态输入进去，得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。需要注意的是因为Q learning有在动作中取max的操作，所以没办法处理非离散的动作。核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 390点热度 0人点赞 sheep 阅读全文

图片下方文字解释了Sarsa和Q-learning在悬崖行走（Cliff Walking）问题中的表现差异，并指出Sarsa更“保守”。这里说的“保守”主要是指Sarsa在学习过程中倾向于选择更安全的路径，避免风险。以下是Sarsa更保守的原因： On-policy (在策略) 学习： Sarsa 是一种 on-policy (在策略) 学习算法。这意味着它在更新Q值时，是基于当前策略选择的下一个动作 A' 来进行评估的。换句话说，Sarsa在学习过程中会“说一套做一套”，它用实际执行的动作序列来更新Q值。具体…

2025年7月26日 0条评论 338点热度 0人点赞 sheep 阅读全文

初探强化学习用智能体（agent）这个概念来表示做决策的机器。相比于有监督学习中的“模型”，强化学习中的“智能体”强调机器不但可以感知周围的环境信息，还可以通过做决策来直接改变这个环境，而不只是给出一些预测信号。面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先，决策任务往往涉及多轮交互，即序贯决策；而预测任务总是单轮的独立任务。如果决策也是单轮的，那么它可以转化为“判别最优动作”的预测任务。其次，因为决策任务是多轮的，智能体就需要在每轮做决策时考虑未来环境相应的改变，所以当前轮带来最…

2025年7月26日 0条评论 360点热度 0人点赞 sheep 阅读全文

SARSA & QLearning V2

PPO

REINFORCE算法

DQN

Sarsa vs Q-learning

RL 基础篇