未分类 - More than code

知乎有一篇文章，可以拿来参考： * https://zhuanlan.zhihu.com/p/1899069273533581204 论文要解决的问题论文旨在解决大语言模型（LLM）监督微调（SFT）中高质量监督数据稀缺的问题。现有合成数据生成方法存在事实错误、长尾知识覆盖不足、知识结构简单化和输出同质化等缺陷，尤其在闭卷知识密集型问答任务中表现不佳。GraphGen通过知识图谱引导的合成数据生成，提升数据质量。前人研究现状基于知识图谱（KG）的方法：早期依赖人工模板生成，存在多样性差的问题；后续引入RNN等…

2025年5月18日 0条评论 319点热度 0人点赞 sheep 阅读全文

论文问题与解答 1. 论文要解决的是什么样的问题？论文旨在解决大规模语言模型在处理知识密集型任务时面临的上下文窗口容量限制与动态知识管理的挑战。具体来说，Cache-Augmented Generation (CAG) 方法虽然通过预加载知识减少检索延迟，但难以应对大规模或频繁更新的知识库，且固定上下文窗口无法高效管理信息的相关性。 2. 前人是怎么研究这个问题的，现在水平如何？ Retrieval-Augmented Generation (RAG)：通过动态检索外部文档提升生成准确性，但存在延迟高、噪声敏感和…

2025年5月18日 0条评论 305点热度 0人点赞 sheep 阅读全文

https://docs.mem0.ai/openmemory/overview Mem0这边推出了一个用来管理memory的MCP server，应该是希望通过这套接口统一一下Memory相关场景的接口。文档中写了他的特点： * Cross-Client Memory Access * Store context in Cursor and retrieve it later in Claude or Windsurf without repeating yourself. * Fully Local Memo…

2025年5月18日 0条评论 381点热度 0人点赞 sheep 阅读全文

agent as a judge这个框架本身是用来评估代码生成agent的效果的，并且提出了名为DevAI的测试集，用来评测AI开发任务的效果 https://deepwiki.com/metauto-ai/agent-as-a-judge/2-usage-guide 现成的codebase中，主要有3个feature可以用： * ask anything * 用自然语言去query codebase * agent evaluation * 使用AaaJ来评估developer agent的效果。这里有两种方式，…

2025年5月12日 0条评论 379点热度 0人点赞 sheep 阅读全文

PocketFlow的作者基于PocketFlow做了一个用来给Codebase生成文档的项目，算是简化版本的DeepWiki，这里介绍一下基本思路核心代码就在nodes.py中看deepwiki的流程图，这里的node都是串行执行的： IdentifyAbstractions 是把整个codebase丢给LLM，给的格式是文件目录，文件内容的tuple 输出若干个abstraction，对应的解释，以及相关的文件索引输出格式是YAML 为了避免模型输出文件路径出问题，这里是让他输出文件路径对应的index，…

2025年5月11日 0条评论 376点热度 0人点赞 sheep 阅读全文

一个极简的Agent框架，核心点在于定义了节点的执行逻辑和转移逻辑中文的可以看看这个 https://www.zhihu.com/question/1898055391348238271/answer/1898075972873491235 框架 Node 节点之间通过share store通信 * prep是从share store中获取数据 * exec是执行 * post是写回share store node还提供了一些retry + fallback的逻辑 Flow 看一个例子就行这里revise >>…

2025年5月11日 0条评论 310点热度 0人点赞 sheep 阅读全文

PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal 论文介绍《PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal》提出了一种自适应的图遍历策略，用于增强基于知识图谱的检索增强生成（GraphRAG）系统。传统的GraphRAG方法采用固定的图遍历策略（如广度优先搜索或随机游走），但不同问题类型需要不同的遍历策略，导致生成答案的质量和效率受限…

2025年4月7日 0条评论 462点热度 0人点赞 sheep 阅读全文

https://www.anthropic.com/news/contextual-retrieval 这篇文章介绍了一种名为“Contextual Retrieval”的新方法，用于改进基于检索增强生成（Retrieval-Augmented Generation, RAG）的信息检索系统。以下是文章的主要内容概述：背景在许多应用场景中，AI模型需要访问特定的背景知识，例如客户支持需要了解业务信息，法律分析需要了解大量案例数据。RAG 是一种常用的方法，通过从知识库中检索相关信息并将其附加到用户的输入中，从而…

2025年4月7日 0条评论 364点热度 0人点赞 sheep 阅读全文

Retrieval-Augmented Generation with Hierarchical Knowledge * 基本思路是通过GMM对实体做聚类，在构图的时候额外增加了若干层的summarize的节点。 * 这里和社区总结是正交的，实现中这两个技术都会使用。 * 聚类出来的总结节点主要是为了连接语意相似，但是没有直接关系的点。 * 个人感觉，这个可能可以替换社区总结。把这种实体的summary扩充一些，然后global问答的时候针对这些实体做总结应该也是可以的代码实现上是基于nano-graphrag的…

2025年3月17日 0条评论 442点热度 0人点赞 sheep 阅读全文

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks 这个思路其实和之前的MemoRAG挺像的，只不过可能更简单一点？其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的，并且这里还没有做MemoRAG那样的压缩唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多，但这块可能还不是瓶颈，用户现在已经认同生成高质量的问答是需要时间的。所以相对来说…

2025年3月12日 0条评论 344点热度 0人点赞 sheep 阅读全文

1 234 5…11

GraphGen

Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration

OpenMemoryMCP

Agent-as-a-Judge

PocketFlow-Codebase Knowledge

PocketFlow

PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal

Contextual Retrieval

HiRAG

Cache-Augmented Generation