GER: GENERATION, EVALUATION AND REFLECTION ENHANCED LLM FOR KNOWLEDGE GRAPH QUESTION ANSWERING
问题 (Problem)
这篇论文致力于解决知识图谱问答(KGQA)中的一个核心挑战:大型语言模型(LLM)的幻觉问题。
传统的知识图谱问答方法,如图神经网络(GNN)为基础的方法,虽然能很好地适应图结构,但在理解自然语言问题的深层意图方面能力有限。近年来,LLM凭借其强大的自然语言理解能力被引入KGQA领域,并取得了一定的成功。
然而,现有方法普遍忽略了一个严重问题:当LLM与庞大的知识图谱(KG)结合时,KG中包含的大量不相关信息会放大LLM的幻觉。这导致模型会生成一些看似正确但实际上与事实不符的答案,极大地降低了问答系统的可靠性。
因此,本文要解决的核心问题是:如何设计一个框架,能够系统性地减少由KG中无关信息引发的LLM幻觉,从而提升KGQA任务的准确性和可靠性。
方法 (Method)
为了解决上述问题,作者提出了一个名为GER(Generation-Evaluation-Reflection,生成-评估-反思) 的LLM增强反思性推理框架。该框架通过在传统的“生成”之后引入“评估”和“反思”两个关键步骤,让LLM能够利用KG中的事实信息来审视和修正自己的答案。
整体框架
GER框架包含三个核心模块,如下图所示:

- ①生成 (Generation): 首先,给定一个问题,LLM会探索知识图谱,生成初步的候选答案和推理路径。这些初步答案可能包含错误和幻觉。
- ②评估 (Evaluation): 接着,评估模块会对生成的候选答案进行严格审查。这一步是GER的核心创新,它采用双粒度评估策略来判断答案的完整性和正确性。
- ③反思 (Reflection): 最后,根据评估模块提供的反馈(Feedback),反思模块会引导LLM过滤掉幻觉内容,探索被遗漏的正确答案,并重新生成最终的、更可靠的答案。
数学形式化
作者将GER框架形式化为一个优化问题,目标是最大化在给定问题 和知识图谱 的情况下,生成正确答案 的概率。这个过程通过对所有可能的初始答案 和评估结果 进行边缘化来实现:
其中:
- : 生成模块,表示在给定问题和KG的情况下,生成初始答案 的概率。
- : 评估模块,表示对初始答案 进行评估后,得到评估结果 的概率。
- : 反思模块,表示结合初始答案 和评估结果 ,生成最终答案 的概率。
模块详解
A. 生成模块 (Generation Module)
该模块的目标是生成候选答案。它通过设计提示(Prompt)来引导LLM:
- 生成关系路径:首先,LLM被要求为问题生成一个可能有效的关系路径,如
"<PATH> relation_1 <SEP> relation_2 </PATH>"。 - 检索推理路径:根据生成的关系路径,在知识图谱 中从问题实体出发进行检索,得到包含实体和关系的完整推理路径 。
- 生成初始答案:基于检索到的推理路径 ,再次引导LLM生成初步的候选答案。
B. 评估模块 (Evaluation Module)
这是GER框架的关键,它通过双粒度评估来确保答案的质量:
-
问题级评估 (Question-level Evaluation):
- 目的: 评估所有候选答案作为一个整体是否完整,即有没有遗漏正确答案。
- 方法: 将问题、推理路径和所有候选答案一起输入LLM,让其判断答案集合是否完整,并给出简要理由。
- 形式化:
这个公式旨在最大化所有候选答案 在给定问题 和KG 下的联合概率,以此来衡量答案集的整体完备性。
-
答案级评估 (Answer-level Evaluation):
- 目的: 评估单个答案的推理过程是否合理,过滤掉不合逻辑的幻觉答案。
- 方法: 将问题、单个推理路径和与之对应的单个答案输入LLM,让其判断该答案是否正确。
- 形式化:
这个公式旨在最大化单个答案 在给定问题 、特定推理路径 和KG 下的正确概率,以此来确保每个答案的逻辑准确性。
C. 反思模块 (Reflection Module)
该模块利用评估模块的反馈来优化答案。
- 目的: 消除幻觉,并根据评估反馈找到被遗漏的正确答案。
- 方法: 论文提出了一种基于反馈的训练范式。将问题、推理路径、初始答案以及评估模块给出的反馈(例如:“不完整”或“不正确”)一并输入LLM,引导它生成一个修正后的最终答案。
- 形式化:
这个公式旨在最大化最终答案 的生成概率,其条件是初始答案 和评估反馈 ,从而使模型学会如何根据反馈进行修正。
案例分析
论文中的图例生动地展示了GER如何修正错误:

- 案例1: 对于问题“安娜·布莱代表哪个选区?”,基线模型Rog生成了错误的推理路径,得出了错误答案“西澳大利亚州”。而GER通过评估模块识别出这个答案是错误的,然后反思模块根据反馈探索了正确的推理路径,最终得到正确答案“南布里斯班选区”。
- 案例2: 对于问题“哈珀·李上的是哪所高中?”,基线模型Rog遗漏了正确的推理路径。GER的评估模块识别出答案不完整,反思模块捕捉到了被遗漏的路径,最终给出了正确答案“门罗县高中”。
Baseline (对比模型)
GER与多种类型的现有方法进行了比较,主要分为三类:
- GNNs: 纯粹基于图神经网络的方法,如
EmbedKGQA,NSM,GraftNet等。 - LLMs: 仅使用大语言模型的方法,如
Flan-T5-xl,Alpaca-7B,LLaMA2-Chat-7B,ChatGPT(包含CoT) 等。 - LLMs+KGs: 结合大模型和知识图谱的混合方法,也是本文最重要的比较对象。包括
UniKGQA,ToG,EtD以及被认为是当前最先进的Rog模型。
数据集 (Datasets)
实验在两个广泛使用的KGQA基准数据集上进行:
- WebQuestionSP (WebQSP): 包含2,826个训练问题和1,628个测试问题。
- Complex WebQuestions (CWQ): 规模更大,更具挑战性,包含27,639个训练问题和3,531个测试问题。
这两个数据集都使用 Freebase 作为其底层的知识图谱。评估指标采用 Hits@1 (Top-1预测的准确率) 和 F1 (综合考虑预测的精确率和召回率)。
可复现性 (Reproducibility)
- 代码: 论文中未提及是否开源代码。
- 算力: 实验使用的基础模型是 LLAMA2-Chat-7B。作者在WebQSP和CWQ的训练集上进行了3个epoch的指令微调(instruction fine-tuning)。这意味着复现该工作需要能够微调7B参数量级模型的计算资源(例如,高端多GPU服务器)。
可改进的几个点 (Potential Improvements)
论文在结论部分也坦诚地指出了当前方法的局限性,这些也是未来可以改进的方向:
- 对知识图谱质量的依赖: GER的性能受限于底层KG的完整性和准确性。如果KG数据稀疏或存在错误,模型的表现会下降。
- 计算复杂度: 引入额外的评估和反思步骤增加了计算开销,对于复杂查询可能会影响响应时间和可扩展性。
- 算法效率: 未来的工作可以探索更高效的算法来降低GER框架的计算成本。
- 处理不完整数据: 需要研究更有效的策略来应对知识图谱数据不完整的情况。
可以被引用的一些结论 (Citable Conclusions)
- 核心发现: 简单地将LLM与KG结合会因KG中的海量无关信息而加剧LLM的幻觉问题。
- 方法论贡献: 显式地引入“评估”和“反思”机制,可以系统性地减少KGQA中的错误与幻觉,是提升LLM在知识驱动任务中可靠性的有效途径。
- 性能突破: GER框架在WebQSP和CWQ两个主流KGQA数据集上均取得了新的SOTA(State-of-the-art)性能。相比之前的最佳模型Rog,在WebQSP上Hits@1提升5.0%,在CWQ上Hits@1提升6.8%。
- 评估策略的有效性: 双粒度评估策略(问题级评估答案完整性,答案级评估单点正确性)对于提升LLM问答的可靠性和完整性至关重要。