GER: GENERATION, EVALUATION AND REFLECTION ENHANCED LLM FOR KNOWLEDGE GRAPH QUESTION ANSWERING

问题 (Problem)

这篇论文致力于解决知识图谱问答（KGQA）中的一个核心挑战：大型语言模型（LLM）的幻觉问题。

传统的知识图谱问答方法，如图神经网络（GNN）为基础的方法，虽然能很好地适应图结构，但在理解自然语言问题的深层意图方面能力有限。近年来，LLM凭借其强大的自然语言理解能力被引入KGQA领域，并取得了一定的成功。

然而，现有方法普遍忽略了一个严重问题：当LLM与庞大的知识图谱（KG）结合时，KG中包含的大量不相关信息会放大LLM的幻觉。这导致模型会生成一些看似正确但实际上与事实不符的答案，极大地降低了问答系统的可靠性。

因此，本文要解决的核心问题是：如何设计一个框架，能够系统性地减少由KG中无关信息引发的LLM幻觉，从而提升KGQA任务的准确性和可靠性。

方法 (Method)

为了解决上述问题，作者提出了一个名为GER（Generation-Evaluation-Reflection，生成-评估-反思） 的LLM增强反思性推理框架。该框架通过在传统的“生成”之后引入“评估”和“反思”两个关键步骤，让LLM能够利用KG中的事实信息来审视和修正自己的答案。

整体框架

GER框架包含三个核心模块，如下图所示：

①生成 (Generation): 首先，给定一个问题，LLM会探索知识图谱，生成初步的候选答案和推理路径。这些初步答案可能包含错误和幻觉。
②评估 (Evaluation): 接着，评估模块会对生成的候选答案进行严格审查。这一步是GER的核心创新，它采用双粒度评估策略来判断答案的完整性和正确性。
③反思 (Reflection): 最后，根据评估模块提供的反馈（Feedback），反思模块会引导LLM过滤掉幻觉内容，探索被遗漏的正确答案，并重新生成最终的、更可靠的答案。

数学形式化

作者将GER框架形式化为一个优化问题，目标是最大化在给定问题 $q$ 和知识图谱 $\mathcal{G}$ 的情况下，生成正确答案 $a$ 的概率。这个过程通过对所有可能的初始答案 $a^{\prime}$ 和评估结果 $e^{\prime}$ 进行边缘化来实现：

$P_{\theta}(a|q,\mathcal{G})=\sum_{a^{\prime}}\sum_{e^{\prime}}P_{gen}(a^{\prime}|q,\mathcal{G};\theta)P_{eval}(e^{\prime}|q,\mathcal{G},a^{\prime};\theta)P_{ref}(a|q,\mathcal{G},a^{\prime},e^{\prime};\theta)$

其中：

$P_{gen}(a^{\prime}|q,\mathcal{G};\theta)$ : 生成模块，表示在给定问题和KG的情况下，生成初始答案 $a^{\prime}$ 的概率。
$P_{eval}(e^{\prime}|q,\mathcal{G},a^{\prime};\theta)$ : 评估模块，表示对初始答案 $a^{\prime}$ 进行评估后，得到评估结果 $e^{\prime}$ 的概率。
$P_{ref}(a|q,\mathcal{G},a^{\prime},e^{\prime};\theta)$ : 反思模块，表示结合初始答案 $a^{\prime}$ 和评估结果 $e^{\prime}$ ，生成最终答案 $a$ 的概率。

模块详解

A. 生成模块 (Generation Module)
该模块的目标是生成候选答案。它通过设计提示（Prompt）来引导LLM：

生成关系路径：首先，LLM被要求为问题生成一个可能有效的关系路径，如 "<PATH> relation_1 <SEP> relation_2 </PATH>"。
检索推理路径：根据生成的关系路径，在知识图谱 $\mathcal{G}$ 中从问题实体出发进行检索，得到包含实体和关系的完整推理路径 $\mathcal{W}_{z}$ 。
生成初始答案：基于检索到的推理路径 $\mathcal{W}_{z}$ ，再次引导LLM生成初步的候选答案。

B. 评估模块 (Evaluation Module)
这是GER框架的关键，它通过双粒度评估来确保答案的质量：

问题级评估 (Question-level Evaluation):
- 目的: 评估所有候选答案作为一个整体是否完整，即有没有遗漏正确答案。
- 方法: 将问题、推理路径和所有候选答案一起输入LLM，让其判断答案集合是否完整，并给出简要理由。
- 形式化:
  $\arg\max_{\theta}\frac{1}{n}\sum_{i=1}^{n}\log P_{\theta}(a_{i}|q,\mathcal{G})$
  这个公式旨在最大化所有候选答案 $a_i$ 在给定问题 $q$ 和KG $\mathcal{G}$ 下的联合概率，以此来衡量答案集的整体完备性。
答案级评估 (Answer-level Evaluation):
- 目的: 评估单个答案的推理过程是否合理，过滤掉不合逻辑的幻觉答案。
- 方法: 将问题、单个推理路径和与之对应的单个答案输入LLM，让其判断该答案是否正确。
- 形式化:
  $\arg\max_{\theta}\max\log P_{\theta}(a|q,r,\mathcal{G})$
  这个公式旨在最大化单个答案 $a$ 在给定问题 $q$ 、特定推理路径 $r$ 和KG $\mathcal{G}$ 下的正确概率，以此来确保每个答案的逻辑准确性。

C. 反思模块 (Reflection Module)
该模块利用评估模块的反馈来优化答案。

目的: 消除幻觉，并根据评估反馈找到被遗漏的正确答案。
方法: 论文提出了一种基于反馈的训练范式。将问题、推理路径、初始答案以及评估模块给出的反馈（例如：“不完整”或“不正确”）一并输入LLM，引导它生成一个修正后的最终答案。
形式化:
$\arg\max\log P_{\theta}(a|q,\mathcal{G},a^{\prime},e^{\prime})$
这个公式旨在最大化最终答案 $a$ 的生成概率，其条件是初始答案 $a^{\prime}$ 和评估反馈 $e^{\prime}$ ，从而使模型学会如何根据反馈进行修正。

案例分析

论文中的图例生动地展示了GER如何修正错误：

案例1: 对于问题“安娜·布莱代表哪个选区？”，基线模型Rog生成了错误的推理路径，得出了错误答案“西澳大利亚州”。而GER通过评估模块识别出这个答案是错误的，然后反思模块根据反馈探索了正确的推理路径，最终得到正确答案“南布里斯班选区”。
案例2: 对于问题“哈珀·李上的是哪所高中？”，基线模型Rog遗漏了正确的推理路径。GER的评估模块识别出答案不完整，反思模块捕捉到了被遗漏的路径，最终给出了正确答案“门罗县高中”。

Baseline (对比模型)

GER与多种类型的现有方法进行了比较，主要分为三类：

GNNs: 纯粹基于图神经网络的方法，如 EmbedKGQA, NSM, GraftNet 等。
LLMs: 仅使用大语言模型的方法，如 Flan-T5-xl, Alpaca-7B, LLaMA2-Chat-7B, ChatGPT (包含CoT) 等。
LLMs+KGs: 结合大模型和知识图谱的混合方法，也是本文最重要的比较对象。包括 UniKGQA, ToG, EtD 以及被认为是当前最先进的 Rog 模型。

数据集 (Datasets)

实验在两个广泛使用的KGQA基准数据集上进行：

WebQuestionSP (WebQSP): 包含2,826个训练问题和1,628个测试问题。
Complex WebQuestions (CWQ): 规模更大，更具挑战性，包含27,639个训练问题和3,531个测试问题。

这两个数据集都使用 Freebase 作为其底层的知识图谱。评估指标采用 Hits@1 (Top-1预测的准确率) 和 F1 (综合考虑预测的精确率和召回率)。

可复现性 (Reproducibility)

代码: 论文中未提及是否开源代码。
算力: 实验使用的基础模型是 LLAMA2-Chat-7B。作者在WebQSP和CWQ的训练集上进行了3个epoch的指令微调（instruction fine-tuning）。这意味着复现该工作需要能够微调7B参数量级模型的计算资源（例如，高端多GPU服务器）。

可改进的几个点 (Potential Improvements)

论文在结论部分也坦诚地指出了当前方法的局限性，这些也是未来可以改进的方向：

对知识图谱质量的依赖: GER的性能受限于底层KG的完整性和准确性。如果KG数据稀疏或存在错误，模型的表现会下降。
计算复杂度: 引入额外的评估和反思步骤增加了计算开销，对于复杂查询可能会影响响应时间和可扩展性。
算法效率: 未来的工作可以探索更高效的算法来降低GER框架的计算成本。
处理不完整数据: 需要研究更有效的策略来应对知识图谱数据不完整的情况。

可以被引用的一些结论 (Citable Conclusions)

核心发现: 简单地将LLM与KG结合会因KG中的海量无关信息而加剧LLM的幻觉问题。
方法论贡献: 显式地引入“评估”和“反思”机制，可以系统性地减少KGQA中的错误与幻觉，是提升LLM在知识驱动任务中可靠性的有效途径。
性能突破: GER框架在WebQSP和CWQ两个主流KGQA数据集上均取得了新的SOTA（State-of-the-art）性能。相比之前的最佳模型Rog，在WebQSP上Hits@1提升5.0%，在CWQ上Hits@1提升6.8%。
评估策略的有效性: 双粒度评估策略（问题级评估答案完整性，答案级评估单点正确性）对于提升LLM问答的可靠性和完整性至关重要。