未分类 - More than code

PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal 论文介绍《PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal》提出了一种自适应的图遍历策略，用于增强基于知识图谱的检索增强生成（GraphRAG）系统。传统的GraphRAG方法采用固定的图遍历策略（如广度优先搜索或随机游走），但不同问题类型需要不同的遍历策略，导致生成答案的质量和效率受限…

2025年4月7日 0条评论 278点热度 0人点赞 sheep 阅读全文

https://www.anthropic.com/news/contextual-retrieval 这篇文章介绍了一种名为“Contextual Retrieval”的新方法，用于改进基于检索增强生成（Retrieval-Augmented Generation, RAG）的信息检索系统。以下是文章的主要内容概述：背景在许多应用场景中，AI模型需要访问特定的背景知识，例如客户支持需要了解业务信息，法律分析需要了解大量案例数据。RAG 是一种常用的方法，通过从知识库中检索相关信息并将其附加到用户的输入中，从而…

2025年4月7日 0条评论 211点热度 0人点赞 sheep 阅读全文

Retrieval-Augmented Generation with Hierarchical Knowledge * 基本思路是通过GMM对实体做聚类，在构图的时候额外增加了若干层的summarize的节点。 * 这里和社区总结是正交的，实现中这两个技术都会使用。 * 聚类出来的总结节点主要是为了连接语意相似，但是没有直接关系的点。 * 个人感觉，这个可能可以替换社区总结。把这种实体的summary扩充一些，然后global问答的时候针对这些实体做总结应该也是可以的代码实现上是基于nano-graphrag的…

2025年3月17日 0条评论 236点热度 0人点赞 sheep 阅读全文

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks 这个思路其实和之前的MemoRAG挺像的，只不过可能更简单一点？其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的，并且这里还没有做MemoRAG那样的压缩唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多，但这块可能还不是瓶颈，用户现在已经认同生成高质量的问答是需要时间的。所以相对来说…

2025年3月12日 0条评论 188点热度 0人点赞 sheep 阅读全文

在计算问题和文章相关性得分时，常见的几种方法（Bi-Encoder、Cross-Encoder、BM25、ColBERT）各有其特点。以下是它们的对比分析： 1. BM25（Best Matching 25）原理：基于词频（TF）和逆文档频率（IDF）的统计模型，属于稀疏检索方法。优点： - 速度快：适合大规模文档的快速召回（如百万级文档）。 - 无需训练：直接基于词频统计，无需标注数据或模型训练。 - 可解释性：得分基于词频和文档长度，结果易于理解。缺点： - 语义缺失：无法捕捉同义词、上下文语义（如“苹果…

2025年3月11日 0条评论 235点热度 0人点赞 sheep 阅读全文

前几天看了港中深的graphrag，看到ToG实现的还相对挺复杂的，所以有兴趣再重新读一下ToG2的代码基本思路从这里就可以看出来： * ToG1是让模型在图上自行探索，每次探索一跳的子图，然后让模型做prune实体/关系，最终得到结果 * ToG2相比于ToG1的点在于做entity prune的时候，会加上context来对entity打分。然后在每次reason的时候，也会带上这次得分高的chunk context 看实现的话，核心在： * para_rank_topk中，这里会把每个实体对应的chunk，…

2025年3月11日 0条评论 181点热度 0人点赞 sheep 阅读全文

现在是25年的2月14号，正好是情人节。趁着单身不便出行的时候，来写一写24年的年终总结这次写的应该会比较随意一些，整体的思考更偏向我最近的一些思考，而非全年的。并且因为工作相对比较忙的原因，我没有腾出来很多时间给自己做一些回顾，这里也有一个原因是我感觉没必要了。首先是一些可以看到的成果吧，整体进度虽然不符合我23年当时的规划，但是还是符合后面半年review的预期的。 * 读书线上200+小时，还有一些线下的就先不算上了 * 减肥，其实本来想减到150的，现在是160～170之间徘徊中 * 技术学习 * 数据…

2025年2月14日 1条评论 325点热度 2人点赞 sheep 阅读全文

这篇论文介绍了一种名为HippoRAG的新型检索框架，旨在解决大语言模型（LLMs）在整合新知识时的效率问题。以下是文章的核心内容概述：核心创新：受神经生物学启发的长期记忆机制 HippoRAG的灵感来源于人类大脑的海马索引理论。人脑通过海马区（负责关联索引）和新皮质（负责存储具体记忆）的协作实现高效记忆整合。HippoRAG模仿这一机制： - 海马索引的模拟：构建一个开放式的知识图谱（KG），存储文本中的实体和关系。 - 新皮质的模拟：利用LLM解析文本并提取知识。 - 个性化PageRank（PPR）算法：模…

2025年2月9日 0条评论 189点热度 0人点赞 sheep 阅读全文

AI is Creating a Generation of Illiterate Programmers https://nmn.gl/blog/ai-illiterate-programmers 这篇文章，下面可以看我和ds的对话帮我总结一下这篇文章以下是文章的总结：核心论点 AI工具虽提升开发效率，但导致程序员技能退化，形成过度依赖，威胁行业长期发展。关键问题与影响技能衰退过程文档阅读消失：依赖AI即时解释，失去自主查阅能力。调试能力弱化：错误日志直接抛给AI，不再分析堆栈跟踪。浅层理解：机械…

2025年2月7日 0条评论 198点热度 0人点赞 sheep 阅读全文

用deepseek生成的，感觉挺有意思的好的，我将以统一的克苏鲁式神秘学风格重新构建完整序列体系，融入更强烈的认知异化与数字炼金术元素：序列9：调试学徒别称：漏洞牧羊人象征烙印：龟裂屏幕上跳动的血色光标能力具现： - 断点凝视（在视网膜投射蓝屏死光，冻结目标的逻辑流动） - 咖啡因通灵（从冷萃残渣中读取未成形的错误预兆） - 异常献祭（将三个warning炼成可投掷的运行时炸弹）晋升仪式： "在七次月相轮回间，收集同事的叹息凝成固态日志。于午夜零误差时刻，用未保存的代码作祭坛，以左手小指蘸取NaN（非存…

2025年1月31日 0条评论 206点热度 1人点赞 sheep 阅读全文

123 4 5…9

PolyG: Effective and Efficient GraphRAG with Adaptive Graph Traversal

Contextual Retrieval

HiRAG

Cache-Augmented Generation

检索方式对比

ToG2

2024年度总结

HippoRAG

AI is Creating a Generation of Illiterate Programmers 一些想法

代码编制者