User 为什么在PPO中,还需要取两个suff的min,为什么不直接用clip呢 Gemini 这是一个非常棒的问题,直接触及了PPO-Clip算法设计的核心思想。 简单来说,同时保留surr1(未截断项)和surr2(截断项)并取其min,是为了 构建一个悲观的、保守的目标函数下界(Pessimistic Bound),从而实现更安全、更稳定的策略更新。 只使用clip项是不够的,因为它在某些情况下会破坏学习信号。 让我们通过分析 优势函数 \hat{A}_t 的正负两种情况来理解这一点: 情况…