Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks 这个思路其实和之前的MemoRAG挺像的,只不过可能更简单一点? 其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的,并且这里还没有做MemoRAG那样的压缩 唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多,但这块可能还不是瓶颈,用户现在已经认同生成高质量的问答是需要时间的。所以相对来说…