Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks
这个思路其实和之前的MemoRAG挺像的,只不过可能更简单一点?
其实这里说的零检索延迟的代价就是所有的文档必须能够放到上下文窗口中。其实感觉是不太可用的,并且这里还没有做MemoRAG那样的压缩
唯一的优势就是节省prefill这一段计算开销了。确实在长上下文下耗时比较多,但这块可能还不是瓶颈,用户现在已经认同生成高质量的问答是需要时间的。所以相对来说问答的效果更关键一些。
如果是要扩展知识库大小的话:
就也有检索开销了,不过prefill还是节省了。算是一个读写的tradeoff吧。
如果后续模型给开这种接口,可以做一些类似用户层kv cache的感觉。
不过注意kv cache是有序的,所以这里动态加载不是很容易做,就只能加载一个chunk问答
文章评论