7 月, 2025 - More than code

策略梯度算法中，策略回报是什么 Gemini 在策略梯度算法中，“策略回报”通常指的是期望回报（Expected Return），也就是我们希望最大化的目标函数。让我们来分解这个概念： 1. 回报 (Return) 首先，在强化学习中，回报 (Return)，通常用 G_t 表示，是指从某一个时间点 t 开始，直到整个回合（episode）结束，所能获得的未来奖励的总和。为了平衡短期和长期奖励，我们常常使用带折扣因子的回报： G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 273点热度 1人点赞 sheep 阅读全文

深度强化学习的基础，要好好看 CartPole环境中，动作只有两个，向左移动和向右移动，但是状态是无限的，因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。如果动作是无限的，神经网络的输入可以是(s, a)，而如果动作是离散的，则可以把当前状态输入进去，得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。需要注意的是因为Q learning有在动作中取max的操作，所以没办法处理非离散的动作。核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 229点热度 0人点赞 sheep 阅读全文

看了下AIME1.5，https://arxiv.org/pdf/2507.11988，这里就简单总结一下。三点核心： * 自适应Planner * 就是ReAct模式，子Agent执行任务之后返回的结果会让planner去调整计划 * 动态Actor * 这个思路很棒，是根据子Agent的任务，动态组装一个agent，而不是预定义的固有的agent。 * 这个动态的Actor在prompt，使用的工具，使用的知识都是动态组装的。 * 应该是根据子Agent的任务，先写一个子agent的prompt出来，比如你是…

2025年7月27日 0条评论 192点热度 0人点赞 sheep 阅读全文

Claude帮忙写的，对应这个项目：https://github.com/NirDiamant/RAG_Techniques?tab=readme-ov-file 概述本文档基于对RAG_Techniques仓库的深入分析，详细介绍了34种先进的检索增强生成（Retrieval-Augmented Generation, RAG）技术。这些技术涵盖了从基础实现到高级架构的全方位解决方案，旨在提升RAG系统的准确性、效率和上下文丰富度。技术分类 🌱 基础技术 1. 简单RAG (Simple RAG) 核心原理：…

2025年7月27日 0条评论 258点热度 0人点赞 sheep 阅读全文

看到了大佬的文章：https://zhuanlan.zhihu.com/p/1932613410174014236 学习了一番然后来简单总结一下。感兴趣的可以去这个知乎的文章里看，材料更加完善核心点还是设计系统的决策点是跟着这些基础设施的能力走的： * 多核bulabula * memory便宜，ssd随机读写变快bulabula的因为之前的five minute rule是基于存储层次来设计的，内存->磁盘，上层的延迟/带宽是大于下一层的。而在云上的S3虽然延迟大，但是带宽也大，也比较便宜。所以在设计的时候…

2025年7月27日 0条评论 237点热度 0人点赞 sheep 阅读全文

图片下方文字解释了Sarsa和Q-learning在悬崖行走（Cliff Walking）问题中的表现差异，并指出Sarsa更“保守”。这里说的“保守”主要是指Sarsa在学习过程中倾向于选择更安全的路径，避免风险。以下是Sarsa更保守的原因： On-policy (在策略) 学习： Sarsa 是一种 on-policy (在策略) 学习算法。这意味着它在更新Q值时，是基于当前策略选择的下一个动作 A' 来进行评估的。换句话说，Sarsa在学习过程中会“说一套做一套”，它用实际执行的动作序列来更新Q值。具体…

2025年7月26日 0条评论 197点热度 0人点赞 sheep 阅读全文

初探强化学习用智能体（agent）这个概念来表示做决策的机器。相比于有监督学习中的“模型”，强化学习中的“智能体”强调机器不但可以感知周围的环境信息，还可以通过做决策来直接改变这个环境，而不只是给出一些预测信号。面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先，决策任务往往涉及多轮交互，即序贯决策；而预测任务总是单轮的独立任务。如果决策也是单轮的，那么它可以转化为“判别最优动作”的预测任务。其次，因为决策任务是多轮的，智能体就需要在每轮做决策时考虑未来环境相应的改变，所以当前轮带来最…

2025年7月26日 0条评论 206点热度 0人点赞 sheep 阅读全文

这块主要是提一下最近看到的一些RAG技术中，针对问答全面性做的一些优化： Shifting from Ranking to Set Selection for Retrieval Augmented Generation 这里是做的instruction turning，所以就不扣技术了，主要就是他的idea： * 不是去关注单个文档/chunk和问答的相关性，而是看整体的覆盖率。 * 避免召回了很多语意相似得分很高的chunk，反而无法全面的回答问题 Knowledge-Aware Diverse Reranki…

2025年7月19日 0条评论 229点热度 0人点赞 sheep 阅读全文

google前一阵开源了一个用langgraph实现的deep research https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart 对应到代码中也很简单：看一下实现细节，是否有需要特殊关注的点： generate_query 根据用户历史对话，用LLM生成若干个search query 有option控制query count，会传入一下当前时间 continue_to_web_research 把输入的search qu…

2025年7月12日 0条评论 228点热度 0人点赞 sheep 阅读全文

REINFORCE算法

DQN

AIME1.5

RAG Techniques

The Five-Minute Rule for the Cloud Caching in Analytics Systems

Sarsa vs Q-learning

RL 基础篇

Set Rerank

Gemini fullstack langgraph