策略梯度算法中,策略回报是什么 Gemini 在策略梯度算法中,“策略回报”通常指的是期望回报(Expected Return),也就是我们希望最大化的目标函数。 让我们来分解这个概念: 1. 回报 (Return) 首先,在强化学习中,回报 (Return),通常用 G_t 表示,是指从某一个时间点 t 开始,直到整个回合(episode)结束,所能获得的未来奖励的总和。为了平衡短期和长期奖励,我们常常使用带折扣因子的回报: G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…