More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
未分类

检索方式对比

在计算问题和文章相关性得分时,常见的几种方法(Bi-Encoder、Cross-Encoder、BM25、ColBERT)各有其特点。以下是它们的对比分析: 1. BM25(Best Matching 25) 原理:基于词频(TF)和逆文档频率(IDF)的统计模型,属于稀疏检索方法。 优点: - 速度快:适合大规模文档的快速召回(如百万级文档)。 - 无需训练:直接基于词频统计,无需标注数据或模型训练。 - 可解释性:得分基于词频和文档长度,结果易于理解。 缺点: - 语义缺失:无法捕捉同义词、上下文语义(如“苹果…

2025年3月11日 0条评论 603点热度 0人点赞 sheep 阅读全文
未分类

ToG2

前几天看了港中深的graphrag,看到ToG实现的还相对挺复杂的,所以有兴趣再重新读一下ToG2的代码 基本思路从这里就可以看出来: * ToG1是让模型在图上自行探索,每次探索一跳的子图,然后让模型做prune实体/关系,最终得到结果 * ToG2相比于ToG1的点在于做entity prune的时候,会加上context来对entity打分。然后在每次reason的时候,也会带上这次得分高的chunk context 看实现的话,核心在: * para_rank_topk中,这里会把每个实体对应的chunk,…

2025年3月11日 0条评论 361点热度 0人点赞 sheep 阅读全文
nlp

港中深 GraphRAG

代码结构 Chunk ChunkFactory.py,通过decorator注册chunking method * chunking_by_seperators * 定义了一些default text separator(如果希望自定义应该怎么做?传入不同的参数?) * chunking_by_token_size 有一个通用的DocChunk类,用来包装不同的chunking method。他会吃config中的chunk_method。 也负责做Chunk的存储和读取。 * build_chunks * 输入为…

2025年3月10日 0条评论 401点热度 0人点赞 sheep 阅读全文
nlp

HF open deep research

https://huggingface.co/blog/open-deep-research https://huggingface.co/datasets/gaia-benchmark/GAIA agent考试用,GAIA(General AI Assistant)数据集。 GAIA is a benchmark which aims at evaluating next-generation LLMs (LLMs with augmented capabilities due to added tooling,…

2025年2月18日 0条评论 400点热度 0人点赞 sheep 阅读全文
nlp

MemoRAG

MemoRAG是一种面向下一代RAG的革新框架,其核心设计围绕"全局记忆系统"展开,旨在突破传统RAG在模糊查询和非结构化知识处理上的局限。以下从三个维度解析其技术方案: 一、双系统架构设计 记忆-生成协同机制 采用轻量级LLM(如Qwen2-7B/Mistral-7B)构建全局记忆系统,通过token压缩技术(最高16倍)处理百万级上下文。记忆模块生成"答案线索"后,触发检索系统定位原始知识片段,再由高性能LLM(如Llama3-8B)完成最终生成。 动态记忆编码 在Transformer架构中引入专用记忆投影矩…

2025年2月15日 0条评论 481点热度 0人点赞 sheep 阅读全文
未分类

2024年度总结

现在是25年的2月14号,正好是情人节。趁着单身不便出行的时候,来写一写24年的年终总结 这次写的应该会比较随意一些,整体的思考更偏向我最近的一些思考,而非全年的。并且因为工作相对比较忙的原因,我没有腾出来很多时间给自己做一些回顾,这里也有一个原因是我感觉没必要了。 首先是一些可以看到的成果吧,整体进度虽然不符合我23年当时的规划,但是还是符合后面半年review的预期的。 * 读书线上200+小时,还有一些线下的就先不算上了 * 减肥,其实本来想减到150的,现在是160~170之间徘徊中 * 技术学习 * 数据…

2025年2月14日 1条评论 561点热度 2人点赞 sheep 阅读全文
nlp

LLMBook Notes

大语言模型(LLMBook) 记录一下读这本书的一些Notes https://github.com/RUCAIBox/LLMSurvey 前言 反观 GPT 系列模型的发展历程,有两点令人印象深刻。第一点是可拓展的训 练架构与学习范式:Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模,并 且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量 与数据规模的重视:不同于 BERT 时代的预训练语言模型,这次大语言模型的成 功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言…

2025年2月14日 0条评论 457点热度 0人点赞 sheep 阅读全文
nlp

ColBERT

有一篇不错的知乎文章:https://zhuanlan.zhihu.com/p/688133363 colbert的核心在于,为文档和query分别做编码。并且是token级别的编码 直观来讲是一种tradeoff,token级别的编码肯定存储空间会上升,带来的好处是细粒度的检索。 如果用过vector rag的人可能知道,vector rag的检索能力是非常弱的,文档长一点,很容易就召回一堆奇奇怪怪的东西。 这里让DS帮忙总结了一下colbert的优缺点,比较全面: ColBERT的Late Interactio…

2025年2月9日 0条评论 396点热度 0人点赞 sheep 阅读全文
未分类

HippoRAG

这篇论文介绍了一种名为HippoRAG的新型检索框架,旨在解决大语言模型(LLMs)在整合新知识时的效率问题。以下是文章的核心内容概述: 核心创新:受神经生物学启发的长期记忆机制 HippoRAG的灵感来源于人类大脑的海马索引理论。人脑通过海马区(负责关联索引)和新皮质(负责存储具体记忆)的协作实现高效记忆整合。HippoRAG模仿这一机制: - 海马索引的模拟:构建一个开放式的知识图谱(KG),存储文本中的实体和关系。 - 新皮质的模拟:利用LLM解析文本并提取知识。 - 个性化PageRank(PPR)算法:模…

2025年2月9日 0条评论 430点热度 0人点赞 sheep 阅读全文
未分类

AI is Creating a Generation of Illiterate Programmers 一些想法

AI is Creating a Generation of Illiterate Programmers https://nmn.gl/blog/ai-illiterate-programmers 这篇文章,下面可以看我和ds的对话 帮我总结一下这篇文章 以下是文章的总结: 核心论点 AI工具虽提升开发效率,但导致程序员技能退化,形成过度依赖,威胁行业长期发展。 关键问题与影响 技能衰退过程 文档阅读消失:依赖AI即时解释,失去自主查阅能力。 调试能力弱化:错误日志直接抛给AI,不再分析堆栈跟踪。 浅层理解:机械…

2025年2月7日 0条评论 450点热度 0人点赞 sheep 阅读全文
1…34567…31
分类
  • Agent/RAG
  • ARTS
  • C++
  • CSAPP
  • daily
  • database
  • leetcode
  • linux
  • ml
  • nlp
  • paper
  • RL
  • rocksdb
  • rust
  • ScummVM
  • tech
  • 其他
  • 周报
  • 未分类
  • 笔记
  • 算法
  • 计算机图形学
归档
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 9 月
  • 2023 年 7 月
  • 2023 年 6 月
  • 2023 年 5 月
  • 2023 年 4 月
  • 2023 年 2 月
  • 2023 年 1 月
  • 2022 年 9 月
  • 2022 年 7 月
  • 2022 年 6 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 3 月
  • 2022 年 2 月
  • 2022 年 1 月
  • 2021 年 12 月
  • 2021 年 11 月
  • 2021 年 10 月
  • 2021 年 9 月
  • 2021 年 8 月
  • 2021 年 7 月
  • 2021 年 6 月
  • 2021 年 5 月
  • 2021 年 4 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS