More than code

RL
RL

REINFORCE算法

策略梯度算法中,策略回报是什么 Gemini 在策略梯度算法中,“策略回报”通常指的是期望回报(Expected Return),也就是我们希望最大化的目标函数。 让我们来分解这个概念: 1. 回报 (Return) 首先,在强化学习中,回报 (Return),通常用 G_t 表示,是指从某一个时间点 t 开始,直到整个回合(episode)结束,所能获得的未来奖励的总和。为了平衡短期和长期奖励,我们常常使用带折扣因子的回报: G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 6点热度 0人点赞 sheep 阅读全文
RL

DQN

深度强化学习的基础,要好好看 CartPole环境中,动作只有两个,向左移动和向右移动,但是状态是无限的,因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。 如果动作是无限的,神经网络的输入可以是(s, a),而如果动作是离散的,则可以把当前状态输入进去,得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。 需要注意的是因为Q learning有在动作中取max的操作,所以没办法处理非离散的动作。 核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 18点热度 0人点赞 sheep 阅读全文
RL

Sarsa vs Q-learning

图片下方文字解释了Sarsa和Q-learning在悬崖行走(Cliff Walking)问题中的表现差异,并指出Sarsa更“保守”。这里说的“保守”主要是指Sarsa在学习过程中倾向于选择更安全的路径,避免风险。 以下是Sarsa更保守的原因: On-policy (在策略) 学习: Sarsa 是一种 on-policy (在策略) 学习算法。这意味着它在更新Q值时,是基于当前策略选择的下一个动作 A' 来进行评估的。换句话说,Sarsa在学习过程中会“说一套做一套”,它用实际执行的动作序列来更新Q值。 具体…

2025年7月26日 0条评论 12点热度 0人点赞 sheep 阅读全文
RL

RL 基础篇

初探 强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。 面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先,决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。其次,因为决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最…

2025年7月26日 0条评论 13点热度 0人点赞 sheep 阅读全文
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS