More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
未分类

DeepWiki翻译

deepwiki输出的质量比较好,但是英文的读起来没那么顺畅,GPT帮忙写了个翻译的脚本 我个人用的是gemini2.5 flash,可以自行配置。把代码粘贴到油猴中就可以了 // ==UserScript== // @name DeepWiki Instant Translator (EN↔ZH) // @namespace https://chat.openai.com/ // @version 0.1.0 // @description Translate DeepWiki pages on the fly …

2025年8月31日 0条评论 591点热度 0人点赞 sheep 阅读全文
未分类

ComoRAG & LeanRAG & FromRankToSelection

好久不写了简单看点文章写写: ComoRAG 个人理解就是几种GraphRAG的方法合起来,上面搞了一个Agent混合检索 三层: * 事实层就是类似HippoRAG这种知识图谱用来回答事实性问题的 * 语意层就是总结类,比如RAPTOR,MS GraphRAG * Episodic就是时序类,这里是用滑动窗口做的,感觉可以套一些其他的时序图的方法 这里时序类的做法是把长文本做滑动窗口式的总结,用来回答全文脉络这种问题。个人感觉主要就是针对小说这种场景。或者是放到Memory上,用户对话的每一段搞一个滑动窗口总结。…

2025年8月27日 0条评论 429点热度 0人点赞 sheep 阅读全文
RL

PPO

User 为什么在PPO中,还需要取两个suff的min,为什么不直接用clip呢 Gemini 这是一个非常棒的问题,直接触及了PPO-Clip算法设计的核心思想。 简单来说,同时保留surr1(未截断项)和surr2(截断项)并取其min,是为了 构建一个悲观的、保守的目标函数下界(Pessimistic Bound),从而实现更安全、更稳定的策略更新。 只使用clip项是不够的,因为它在某些情况下会破坏学习信号。 让我们通过分析 优势函数 \hat{A}_t 的正负两种情况来理解这一点: 情况…

2025年8月4日 0条评论 587点热度 0人点赞 sheep 阅读全文
RL

REINFORCE算法

策略梯度算法中,策略回报是什么 Gemini 在策略梯度算法中,“策略回报”通常指的是期望回报(Expected Return),也就是我们希望最大化的目标函数。 让我们来分解这个概念: 1. 回报 (Return) 首先,在强化学习中,回报 (Return),通常用 G_t 表示,是指从某一个时间点 t 开始,直到整个回合(episode)结束,所能获得的未来奖励的总和。为了平衡短期和长期奖励,我们常常使用带折扣因子的回报: G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_…

2025年7月30日 0条评论 500点热度 1人点赞 sheep 阅读全文
RL

DQN

深度强化学习的基础,要好好看 CartPole环境中,动作只有两个,向左移动和向右移动,但是状态是无限的,因为是连续的。这种情况下使用Q learning中表格的方式来记录状态就是不太现实的。所以可以使用神经网络来做拟合。 如果动作是无限的,神经网络的输入可以是(s, a),而如果动作是离散的,则可以把当前状态输入进去,得到每一个动作的Q值。 DQN就是使用了神经网络的Q learning。 需要注意的是因为Q learning有在动作中取max的操作,所以没办法处理非离散的动作。 核心是使用神经网络去学习Q函数。…

2025年7月27日 0条评论 456点热度 0人点赞 sheep 阅读全文
Agent/RAG

AIME1.5

看了下AIME1.5,https://arxiv.org/pdf/2507.11988,这里就简单总结一下。 三点核心: * 自适应Planner * 就是ReAct模式,子Agent执行任务之后返回的结果会让planner去调整计划 * 动态Actor * 这个思路很棒,是根据子Agent的任务,动态组装一个agent,而不是预定义的固有的agent。 * 这个动态的Actor在prompt,使用的工具,使用的知识都是动态组装的。 * 应该是根据子Agent的任务,先写一个子agent的prompt出来,比如你是…

2025年7月27日 0条评论 433点热度 0人点赞 sheep 阅读全文
Agent/RAG

RAG Techniques

Claude帮忙写的,对应这个项目:https://github.com/NirDiamant/RAG_Techniques?tab=readme-ov-file 概述 本文档基于对RAG_Techniques仓库的深入分析,详细介绍了34种先进的检索增强生成(Retrieval-Augmented Generation, RAG)技术。这些技术涵盖了从基础实现到高级架构的全方位解决方案,旨在提升RAG系统的准确性、效率和上下文丰富度。 技术分类 🌱 基础技术 1. 简单RAG (Simple RAG) 核心原理:…

2025年7月27日 0条评论 522点热度 0人点赞 sheep 阅读全文
database

The Five-Minute Rule for the Cloud Caching in Analytics Systems

看到了大佬的文章:https://zhuanlan.zhihu.com/p/1932613410174014236 学习了一番然后来简单总结一下。感兴趣的可以去这个知乎的文章里看,材料更加完善 核心点还是设计系统的决策点是跟着这些基础设施的能力走的: * 多核bulabula * memory便宜,ssd随机读写变快bulabula的 因为之前的five minute rule是基于存储层次来设计的,内存->磁盘,上层的延迟/带宽是大于下一层的。而在云上的S3虽然延迟大,但是带宽也大,也比较便宜。 所以在设计的时候…

2025年7月27日 0条评论 430点热度 0人点赞 sheep 阅读全文
RL

Sarsa vs Q-learning

图片下方文字解释了Sarsa和Q-learning在悬崖行走(Cliff Walking)问题中的表现差异,并指出Sarsa更“保守”。这里说的“保守”主要是指Sarsa在学习过程中倾向于选择更安全的路径,避免风险。 以下是Sarsa更保守的原因: On-policy (在策略) 学习: Sarsa 是一种 on-policy (在策略) 学习算法。这意味着它在更新Q值时,是基于当前策略选择的下一个动作 A' 来进行评估的。换句话说,Sarsa在学习过程中会“说一套做一套”,它用实际执行的动作序列来更新Q值。 具体…

2025年7月26日 0条评论 402点热度 0人点赞 sheep 阅读全文
RL

RL 基础篇

初探 强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。 面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先,决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。其次,因为决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最…

2025年7月26日 0条评论 443点热度 0人点赞 sheep 阅读全文
1…34567…34
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2026 年 4 月
  • 2026 年 3 月
  • 2026 年 2 月
  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS