问题 (Problem)

这篇论文致力于解决知识图谱问答(KGQA)中的一个核心挑战:大型语言模型(LLM)的幻觉问题

传统的知识图谱问答方法,如图神经网络(GNN)为基础的方法,虽然能很好地适应图结构,但在理解自然语言问题的深层意图方面能力有限。近年来,LLM凭借其强大的自然语言理解能力被引入KGQA领域,并取得了一定的成功。

然而,现有方法普遍忽略了一个严重问题:当LLM与庞大的知识图谱(KG)结合时,KG中包含的大量不相关信息放大LLM的幻觉。这导致模型会生成一些看似正确但实际上与事实不符的答案,极大地降低了问答系统的可靠性。

因此,本文要解决的核心问题是:如何设计一个框架,能够系统性地减少由KG中无关信息引发的LLM幻觉,从而提升KGQA任务的准确性和可靠性。

方法 (Method)

为了解决上述问题,作者提出了一个名为GER(Generation-Evaluation-Reflection,生成-评估-反思) 的LLM增强反思性推理框架。该框架通过在传统的“生成”之后引入“评估”和“反思”两个关键步骤,让LLM能够利用KG中的事实信息来审视和修正自己的答案。

整体框架

GER框架包含三个核心模块,如下图所示:
Figure1

  • ①生成 (Generation): 首先,给定一个问题,LLM会探索知识图谱,生成初步的候选答案和推理路径。这些初步答案可能包含错误和幻觉。
  • ②评估 (Evaluation): 接着,评估模块会对生成的候选答案进行严格审查。这一步是GER的核心创新,它采用双粒度评估策略来判断答案的完整性和正确性。
  • ③反思 (Reflection): 最后,根据评估模块提供的反馈(Feedback),反思模块会引导LLM过滤掉幻觉内容,探索被遗漏的正确答案,并重新生成最终的、更可靠的答案。

数学形式化

作者将GER框架形式化为一个优化问题,目标是最大化在给定问题 qq 和知识图谱 G\mathcal{G} 的情况下,生成正确答案 aa 的概率。这个过程通过对所有可能的初始答案 aa^{\prime} 和评估结果 ee^{\prime} 进行边缘化来实现:

Pθ(aq,G)=aePgen(aq,G;θ)Peval(eq,G,a;θ)Pref(aq,G,a,e;θ)P_{\theta}(a|q,\mathcal{G})=\sum_{a^{\prime}}\sum_{e^{\prime}}P_{gen}(a^{\prime}|q,\mathcal{G};\theta)P_{eval}(e^{\prime}|q,\mathcal{G},a^{\prime};\theta)P_{ref}(a|q,\mathcal{G},a^{\prime},e^{\prime};\theta)

其中:

  • Pgen(aq,G;θ)P_{gen}(a^{\prime}|q,\mathcal{G};\theta): 生成模块,表示在给定问题和KG的情况下,生成初始答案 aa^{\prime} 的概率。
  • Peval(eq,G,a;θ)P_{eval}(e^{\prime}|q,\mathcal{G},a^{\prime};\theta): 评估模块,表示对初始答案 aa^{\prime} 进行评估后,得到评估结果 ee^{\prime} 的概率。
  • Pref(aq,G,a,e;θ)P_{ref}(a|q,\mathcal{G},a^{\prime},e^{\prime};\theta): 反思模块,表示结合初始答案 aa^{\prime} 和评估结果 ee^{\prime},生成最终答案 aa 的概率。

模块详解

A. 生成模块 (Generation Module)
该模块的目标是生成候选答案。它通过设计提示(Prompt)来引导LLM:

  1. 生成关系路径:首先,LLM被要求为问题生成一个可能有效的关系路径,如 "<PATH> relation_1 <SEP> relation_2 </PATH>"
  2. 检索推理路径:根据生成的关系路径,在知识图谱 G\mathcal{G} 中从问题实体出发进行检索,得到包含实体和关系的完整推理路径 Wz\mathcal{W}_{z}
  3. 生成初始答案:基于检索到的推理路径 Wz\mathcal{W}_{z},再次引导LLM生成初步的候选答案。

B. 评估模块 (Evaluation Module)
这是GER框架的关键,它通过双粒度评估来确保答案的质量:

  • 问题级评估 (Question-level Evaluation):

    • 目的: 评估所有候选答案作为一个整体是否完整,即有没有遗漏正确答案。
    • 方法: 将问题、推理路径和所有候选答案一起输入LLM,让其判断答案集合是否完整,并给出简要理由。
    • 形式化:

      argmaxθ1ni=1nlogPθ(aiq,G)\arg\max_{\theta}\frac{1}{n}\sum_{i=1}^{n}\log P_{\theta}(a_{i}|q,\mathcal{G})

      这个公式旨在最大化所有候选答案 aia_i 在给定问题 qq 和KG G\mathcal{G} 下的联合概率,以此来衡量答案集的整体完备性。
  • 答案级评估 (Answer-level Evaluation):

    • 目的: 评估单个答案的推理过程是否合理,过滤掉不合逻辑的幻觉答案。
    • 方法: 将问题、单个推理路径和与之对应的单个答案输入LLM,让其判断该答案是否正确。
    • 形式化:

      argmaxθmaxlogPθ(aq,r,G)\arg\max_{\theta}\max\log P_{\theta}(a|q,r,\mathcal{G})

      这个公式旨在最大化单个答案 aa 在给定问题 qq、特定推理路径 rr 和KG G\mathcal{G} 下的正确概率,以此来确保每个答案的逻辑准确性。

C. 反思模块 (Reflection Module)
该模块利用评估模块的反馈来优化答案。

  • 目的: 消除幻觉,并根据评估反馈找到被遗漏的正确答案。
  • 方法: 论文提出了一种基于反馈的训练范式。将问题、推理路径、初始答案以及评估模块给出的反馈(例如:“不完整”或“不正确”)一并输入LLM,引导它生成一个修正后的最终答案。
  • 形式化:

    argmaxlogPθ(aq,G,a,e)\arg\max\log P_{\theta}(a|q,\mathcal{G},a^{\prime},e^{\prime})

    这个公式旨在最大化最终答案 aa 的生成概率,其条件是初始答案 aa^{\prime} 和评估反馈 ee^{\prime},从而使模型学会如何根据反馈进行修正。

案例分析

论文中的图例生动地展示了GER如何修正错误:
Figure2

  • 案例1: 对于问题“安娜·布莱代表哪个选区?”,基线模型Rog生成了错误的推理路径,得出了错误答案“西澳大利亚州”。而GER通过评估模块识别出这个答案是错误的,然后反思模块根据反馈探索了正确的推理路径,最终得到正确答案“南布里斯班选区”。
  • 案例2: 对于问题“哈珀·李上的是哪所高中?”,基线模型Rog遗漏了正确的推理路径。GER的评估模块识别出答案不完整,反思模块捕捉到了被遗漏的路径,最终给出了正确答案“门罗县高中”。

Baseline (对比模型)

GER与多种类型的现有方法进行了比较,主要分为三类:

  • GNNs: 纯粹基于图神经网络的方法,如 EmbedKGQA, NSM, GraftNet 等。
  • LLMs: 仅使用大语言模型的方法,如 Flan-T5-xl, Alpaca-7B, LLaMA2-Chat-7B, ChatGPT (包含CoT) 等。
  • LLMs+KGs: 结合大模型和知识图谱的混合方法,也是本文最重要的比较对象。包括 UniKGQA, ToG, EtD 以及被认为是当前最先进的 Rog 模型。

数据集 (Datasets)

实验在两个广泛使用的KGQA基准数据集上进行:

  • WebQuestionSP (WebQSP): 包含2,826个训练问题和1,628个测试问题。
  • Complex WebQuestions (CWQ): 规模更大,更具挑战性,包含27,639个训练问题和3,531个测试问题。

这两个数据集都使用 Freebase 作为其底层的知识图谱。评估指标采用 Hits@1 (Top-1预测的准确率) 和 F1 (综合考虑预测的精确率和召回率)。

可复现性 (Reproducibility)

  • 代码: 论文中未提及是否开源代码。
  • 算力: 实验使用的基础模型是 LLAMA2-Chat-7B。作者在WebQSP和CWQ的训练集上进行了3个epoch的指令微调(instruction fine-tuning)。这意味着复现该工作需要能够微调7B参数量级模型的计算资源(例如,高端多GPU服务器)。

可改进的几个点 (Potential Improvements)

论文在结论部分也坦诚地指出了当前方法的局限性,这些也是未来可以改进的方向:

  1. 对知识图谱质量的依赖: GER的性能受限于底层KG的完整性和准确性。如果KG数据稀疏或存在错误,模型的表现会下降。
  2. 计算复杂度: 引入额外的评估和反思步骤增加了计算开销,对于复杂查询可能会影响响应时间和可扩展性。
  3. 算法效率: 未来的工作可以探索更高效的算法来降低GER框架的计算成本。
  4. 处理不完整数据: 需要研究更有效的策略来应对知识图谱数据不完整的情况。

可以被引用的一些结论 (Citable Conclusions)

  • 核心发现: 简单地将LLM与KG结合会因KG中的海量无关信息而加剧LLM的幻觉问题。
  • 方法论贡献: 显式地引入“评估”和“反思”机制,可以系统性地减少KGQA中的错误与幻觉,是提升LLM在知识驱动任务中可靠性的有效途径。
  • 性能突破: GER框架在WebQSP和CWQ两个主流KGQA数据集上均取得了新的SOTA(State-of-the-art)性能。相比之前的最佳模型Rog,在WebQSP上Hits@1提升5.0%,在CWQ上Hits@1提升6.8%。
  • 评估策略的有效性: 双粒度评估策略(问题级评估答案完整性,答案级评估单点正确性)对于提升LLM问答的可靠性和完整性至关重要。