有一篇不错的知乎文章:https://zhuanlan.zhihu.com/p/688133363 colbert的核心在于,为文档和query分别做编码。并且是token级别的编码 直观来讲是一种tradeoff,token级别的编码肯定存储空间会上升,带来的好处是细粒度的检索。 如果用过vector rag的人可能知道,vector rag的检索能力是非常弱的,文档长一点,很容易就召回一堆奇奇怪怪的东西。 这里让DS帮忙总结了一下colbert的优缺点,比较全面: ColBERT的Late Interactio…