nlp - More than code

代码结构 Chunk ChunkFactory.py，通过decorator注册chunking method * chunking_by_seperators * 定义了一些default text separator（如果希望自定义应该怎么做？传入不同的参数？) * chunking_by_token_size 有一个通用的DocChunk类，用来包装不同的chunking method。他会吃config中的chunk_method。也负责做Chunk的存储和读取。 * build_chunks * 输入为…

2025年3月10日 0条评论 356点热度 0人点赞 sheep 阅读全文

https://huggingface.co/blog/open-deep-research https://huggingface.co/datasets/gaia-benchmark/GAIA agent考试用，GAIA(General AI Assistant)数据集。 GAIA is a benchmark which aims at evaluating next-generation LLMs (LLMs with augmented capabilities due to added tooling,…

2025年2月18日 0条评论 368点热度 0人点赞 sheep 阅读全文

MemoRAG是一种面向下一代RAG的革新框架，其核心设计围绕"全局记忆系统"展开，旨在突破传统RAG在模糊查询和非结构化知识处理上的局限。以下从三个维度解析其技术方案：一、双系统架构设计记忆-生成协同机制采用轻量级LLM（如Qwen2-7B/Mistral-7B）构建全局记忆系统，通过token压缩技术（最高16倍）处理百万级上下文。记忆模块生成"答案线索"后，触发检索系统定位原始知识片段，再由高性能LLM（如Llama3-8B）完成最终生成。动态记忆编码在Transformer架构中引入专用记忆投影矩…

2025年2月15日 0条评论 404点热度 0人点赞 sheep 阅读全文

大语言模型（LLMBook）记录一下读这本书的一些Notes https://github.com/RUCAIBox/LLMSurvey 前言反观 GPT 系列模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式：Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式；第二点是对于数据质量与数据规模的重视：不同于 BERT 时代的预训练语言模型，这次大语言模型的成功与数据有着更为紧密的关系，高质量数据、超大规模数据成为大语言…

2025年2月14日 0条评论 415点热度 0人点赞 sheep 阅读全文

有一篇不错的知乎文章：https://zhuanlan.zhihu.com/p/688133363 colbert的核心在于，为文档和query分别做编码。并且是token级别的编码直观来讲是一种tradeoff，token级别的编码肯定存储空间会上升，带来的好处是细粒度的检索。如果用过vector rag的人可能知道，vector rag的检索能力是非常弱的，文档长一点，很容易就召回一堆奇奇怪怪的东西。这里让DS帮忙总结了一下colbert的优缺点，比较全面： ColBERT的Late Interactio…

2025年2月9日 0条评论 360点热度 0人点赞 sheep 阅读全文

AdaLoRA（Adaptive Low-Rank Adaptation）是一种改进的低秩自适应方法，旨在动态调整参数矩阵的秩（rank），以在模型微调过程中更高效地分配参数资源。其核心思想是通过自适应地分配不同参数矩阵的秩，使得重要的参数更新获得更高的秩（更多表达能力），而不重要的部分秩较低（节省计算资源）。以下是其动态调整秩的关键机制： 1. 参数矩阵的低秩分解 AdaLoRA基于低秩分解（类似LoRA），将待更新的权重矩阵 W 分解为两个低秩矩阵的乘积： W = W_0 + \Delta W = W_0 + …

2025年2月6日 0条评论 443点热度 0人点赞 sheep 阅读全文

读一下知乎这篇文章：https://zhuanlan.zhihu.com/p/456863215 在GPT2中，对layer normalization做了优化把layer norm从残差层后面放到了残差层内部。总结看来，Pre-LN带来的好处，基本都是因为不需要做warm-up引起的。而引起这一差异的根本原因是： - Post-LN在输出层的gradient norm较大，且越往下层走，gradient norm呈现下降趋势。这种情况下，在训练初期若采用一个较大的学习率，容易引起模型的震荡。 - Pre-LN…

2025年1月31日 0条评论 497点热度 0人点赞 sheep 阅读全文

知乎这里有一篇不错的文章讲这块：https://zhuanlan.zhihu.com/p/460678461 基本介绍 deepseek给了一个基本的介绍：好的！以下是对语言模型 Tokenizer 的详细解释，涵盖你的问题： 1. Tokenizer 的作用与使用方式 Tokenizer（分词器）是语言模型的核心组件之一，负责将原始文本拆分成模型能处理的单元（Token），同时将 Token 转换为对应的数字 ID（或向量）。它的使用分两个方向：预处理（Preprocessing）：将输入文本（如句子、段…

2025年1月30日 0条评论 375点热度 0人点赞 sheep 阅读全文

这里有一个很不错的图讲bert的用法的： * 先通过完形填空的方式，用大量的语料做预训练。 * 然后针对特定的任务，做微调 Introduction BERT：Bidirectional Encoder Representation from Transformer 用来预训练bidirectional representation，也就是说，bert输出的是每一个token对应的bidirectional representation，用来后续做其他任务。这里有一个新的名词：pretrain的过程是通过join…

2025年1月28日 0条评论 305点热度 0人点赞 sheep 阅读全文

有关这块，还有一些相关的paper，后续可以读一读：以下是几篇关键论文，从不同角度解释了为何Transformer模型采用多头注意力（Multi-Head Attention, MHA）机制，以及其优势与必要性： 1. **原始Transformer论文核心观点： Vaswani等人在2017年的开创性论文中首次提出MHA，认为并行化多个独立注意力头可以增强模型对不同子空间特征的捕捉能力。每个头通过独立的线性变换生成查询（Q）、键（K）、值（V），允许模型从多个角度关注输入的不同语义或语法模式（如局部依赖、长程…

2025年1月22日 0条评论 333点热度 1人点赞 sheep 阅读全文

港中深 GraphRAG

HF open deep research

MemoRAG

LLMBook Notes

ColBERT

AdaLoRA

Layer Normalization

Tokenizer notes

BERT notes

用秩来理解multi head attention