More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
未分类

Contextual Retrieval

https://www.anthropic.com/news/contextual-retrieval 这篇文章介绍了一种名为“Contextual Retrieval”的新方法,用于改进基于检索增强生成(Retrieval-Augmented Generation, RAG)的信息检索系统。以下是文章的主要内容概述: 背景 在许多应用场景中,AI模型需要访问特定的背景知识,例如客户支持需要了解业务信息,法律分析需要了解大量案例数据。RAG 是一种常用的方法,通过从知识库中检索相关信息并将其附加到用户的输入中,从而…

2025年4月7日 0条评论 155点热度 0人点赞 sheep 阅读全文
ml

MS GraphRAG 增量更新

这篇文章来看一下MS GraphRAG是怎么实现增量更新的。核心的代码在:https://github.com/microsoft/graphrag/blob/main/graphrag/index/run/run_pipeline.py 入口在run_pipeline中,参数is_update_run,表示本次写入是增量还是全量 run_pipeline get_delta_docs,这里是根据之前存储中的文档过滤一下,只处理新生成的文档。这里是根据title做的过滤,而非md5什么的。一般来说这里的title就…

2025年3月30日 0条评论 120点热度 0人点赞 sheep 阅读全文
未分类

HiRAG

Retrieval-Augmented Generation with Hierarchical Knowledge * 基本思路是通过GMM对实体做聚类,在构图的时候额外增加了若干层的summarize的节点。 * 这里和社区总结是正交的,实现中这两个技术都会使用。 * 聚类出来的总结节点主要是为了连接语意相似,但是没有直接关系的点。 * 个人感觉,这个可能可以替换社区总结。把这种实体的summary扩充一些,然后global问答的时候针对这些实体做总结应该也是可以的 代码实现上是基于nano-graphrag的…

2025年3月17日 0条评论 178点热度 0人点赞 sheep 阅读全文
未分类

Cache-Augmented Generation

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks 这个思路其实和之前的MemoRAG挺像的,只不过可能更简单一点? 其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的,并且这里还没有做MemoRAG那样的压缩 唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多,但这块可能还不是瓶颈,用户现在已经认同生成高质量的问答是需要时间的。所以相对来说…

2025年3月12日 0条评论 144点热度 0人点赞 sheep 阅读全文
未分类

检索方式对比

在计算问题和文章相关性得分时,常见的几种方法(Bi-Encoder、Cross-Encoder、BM25、ColBERT)各有其特点。以下是它们的对比分析: 1. BM25(Best Matching 25) 原理:基于词频(TF)和逆文档频率(IDF)的统计模型,属于稀疏检索方法。 优点: - 速度快:适合大规模文档的快速召回(如百万级文档)。 - 无需训练:直接基于词频统计,无需标注数据或模型训练。 - 可解释性:得分基于词频和文档长度,结果易于理解。 缺点: - 语义缺失:无法捕捉同义词、上下文语义(如“苹果…

2025年3月11日 0条评论 169点热度 0人点赞 sheep 阅读全文
未分类

ToG2

前几天看了港中深的graphrag,看到ToG实现的还相对挺复杂的,所以有兴趣再重新读一下ToG2的代码 基本思路从这里就可以看出来: * ToG1是让模型在图上自行探索,每次探索一跳的子图,然后让模型做prune实体/关系,最终得到结果 * ToG2相比于ToG1的点在于做entity prune的时候,会加上context来对entity打分。然后在每次reason的时候,也会带上这次得分高的chunk context 看实现的话,核心在: * para_rank_topk中,这里会把每个实体对应的chunk,…

2025年3月11日 0条评论 141点热度 0人点赞 sheep 阅读全文
nlp

港中深 GraphRAG

代码结构 Chunk ChunkFactory.py,通过decorator注册chunking method * chunking_by_seperators * 定义了一些default text separator(如果希望自定义应该怎么做?传入不同的参数?) * chunking_by_token_size 有一个通用的DocChunk类,用来包装不同的chunking method。他会吃config中的chunk_method。 也负责做Chunk的存储和读取。 * build_chunks * 输入为…

2025年3月10日 0条评论 164点热度 0人点赞 sheep 阅读全文
nlp

HF open deep research

https://huggingface.co/blog/open-deep-research https://huggingface.co/datasets/gaia-benchmark/GAIA agent考试用,GAIA(General AI Assistant)数据集。 GAIA is a benchmark which aims at evaluating next-generation LLMs (LLMs with augmented capabilities due to added tooling,…

2025年2月18日 0条评论 185点热度 0人点赞 sheep 阅读全文
nlp

MemoRAG

MemoRAG是一种面向下一代RAG的革新框架,其核心设计围绕"全局记忆系统"展开,旨在突破传统RAG在模糊查询和非结构化知识处理上的局限。以下从三个维度解析其技术方案: 一、双系统架构设计 记忆-生成协同机制 采用轻量级LLM(如Qwen2-7B/Mistral-7B)构建全局记忆系统,通过token压缩技术(最高16倍)处理百万级上下文。记忆模块生成"答案线索"后,触发检索系统定位原始知识片段,再由高性能LLM(如Llama3-8B)完成最终生成。 动态记忆编码 在Transformer架构中引入专用记忆投影矩…

2025年2月15日 0条评论 194点热度 0人点赞 sheep 阅读全文
未分类

2024年度总结

现在是25年的2月14号,正好是情人节。趁着单身不便出行的时候,来写一写24年的年终总结 这次写的应该会比较随意一些,整体的思考更偏向我最近的一些思考,而非全年的。并且因为工作相对比较忙的原因,我没有腾出来很多时间给自己做一些回顾,这里也有一个原因是我感觉没必要了。 首先是一些可以看到的成果吧,整体进度虽然不符合我23年当时的规划,但是还是符合后面半年review的预期的。 * 读书线上200+小时,还有一些线下的就先不算上了 * 减肥,其实本来想减到150的,现在是160~170之间徘徊中 * 技术学习 * 数据…

2025年2月14日 1条评论 254点热度 2人点赞 sheep 阅读全文
12345…29
分类
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS