知乎有一篇文章,可以拿来参考: * https://zhuanlan.zhihu.com/p/1899069273533581204 论文要解决的问题 论文旨在解决大语言模型(LLM)监督微调(SFT)中高质量监督数据稀缺的问题。现有合成数据生成方法存在事实错误、长尾知识覆盖不足、知识结构简单化和输出同质化等缺陷,尤其在闭卷知识密集型问答任务中表现不佳。GraphGen通过知识图谱引导的合成数据生成,提升数据质量。 前人研究现状 基于知识图谱(KG)的方法:早期依赖人工模板生成,存在多样性差的问题;后续引入RNN等…