通过SARSA和QLearning来理解一下on policy和off policy 1. Q-learning(Off-policy) 更新公式: Q(s,a) \leftarrow Q(s,a) + \alpha \Big( r + \gamma \max_{a'} Q(s',a') - Q(s,a)\Big) Q-learning 在更新时,使用的是 下一状态 s' 中的最大动作价值 \max_{a'} Q(s',a'),即假设下一步总是采取最优动作。 这意味着它学习的是 最优策略(greedy policy…