3 月, 2025 - More than code

这篇文章来看一下MS GraphRAG是怎么实现增量更新的。核心的代码在：https://github.com/microsoft/graphrag/blob/main/graphrag/index/run/run_pipeline.py 入口在run_pipeline中，参数is_update_run，表示本次写入是增量还是全量 run_pipeline get_delta_docs，这里是根据之前存储中的文档过滤一下，只处理新生成的文档。这里是根据title做的过滤，而非md5什么的。一般来说这里的title就…

2025年3月30日 0条评论 307点热度 0人点赞 sheep 阅读全文

Retrieval-Augmented Generation with Hierarchical Knowledge * 基本思路是通过GMM对实体做聚类，在构图的时候额外增加了若干层的summarize的节点。 * 这里和社区总结是正交的，实现中这两个技术都会使用。 * 聚类出来的总结节点主要是为了连接语意相似，但是没有直接关系的点。 * 个人感觉，这个可能可以替换社区总结。把这种实体的summary扩充一些，然后global问答的时候针对这些实体做总结应该也是可以的代码实现上是基于nano-graphrag的…

2025年3月17日 0条评论 362点热度 0人点赞 sheep 阅读全文

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks 这个思路其实和之前的MemoRAG挺像的，只不过可能更简单一点？其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的，并且这里还没有做MemoRAG那样的压缩唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多，但这块可能还不是瓶颈，用户现在已经认同生成高质量的问答是需要时间的。所以相对来说…

2025年3月12日 0条评论 285点热度 0人点赞 sheep 阅读全文

在计算问题和文章相关性得分时，常见的几种方法（Bi-Encoder、Cross-Encoder、BM25、ColBERT）各有其特点。以下是它们的对比分析： 1. BM25（Best Matching 25）原理：基于词频（TF）和逆文档频率（IDF）的统计模型，属于稀疏检索方法。优点： - 速度快：适合大规模文档的快速召回（如百万级文档）。 - 无需训练：直接基于词频统计，无需标注数据或模型训练。 - 可解释性：得分基于词频和文档长度，结果易于理解。缺点： - 语义缺失：无法捕捉同义词、上下文语义（如“苹果…

2025年3月11日 0条评论 397点热度 0人点赞 sheep 阅读全文

前几天看了港中深的graphrag，看到ToG实现的还相对挺复杂的，所以有兴趣再重新读一下ToG2的代码基本思路从这里就可以看出来： * ToG1是让模型在图上自行探索，每次探索一跳的子图，然后让模型做prune实体/关系，最终得到结果 * ToG2相比于ToG1的点在于做entity prune的时候，会加上context来对entity打分。然后在每次reason的时候，也会带上这次得分高的chunk context 看实现的话，核心在： * para_rank_topk中，这里会把每个实体对应的chunk，…

2025年3月11日 0条评论 279点热度 0人点赞 sheep 阅读全文

代码结构 Chunk ChunkFactory.py，通过decorator注册chunking method * chunking_by_seperators * 定义了一些default text separator（如果希望自定义应该怎么做？传入不同的参数？) * chunking_by_token_size 有一个通用的DocChunk类，用来包装不同的chunking method。他会吃config中的chunk_method。也负责做Chunk的存储和读取。 * build_chunks * 输入为…

2025年3月10日 0条评论 320点热度 0人点赞 sheep 阅读全文

MS GraphRAG 增量更新

HiRAG

Cache-Augmented Generation

检索方式对比

ToG2

港中深 GraphRAG