IMPROVING LANGUAGE MODELS VIA PLUG-AND-PLAY RETRIEVAL FEEDBACK

问题 (Problem)

这篇论文主要解决大型语言模型（LLMs）在实际应用中的几个核心痛点：

内容幻觉与不准确性: 尽管LLMs在多种自然语言处理任务上表现出色，但它们常常会生成不正确或完全捏造（即“幻觉”）的信息，这严重限制了它们在需要高可靠性场景下的应用。
知识局限性: LLMs的知识被固化在其模型参数中，这些知识可能是不完整或过时的，尤其难以覆盖训练语料中的长尾知识。
现有解决方案的缺陷:
- 人工反馈（如RLHF）: 通过人工标注和强化学习来对齐模型，虽然有效，但极其消耗资源、成本高昂且耗时。
- 实时性差: 对于已经微调好的模型，很难在推理过程中实时接收反馈并进行即时纠错。

因此，论文的核心研究问题是：我们能否在不进行昂贵微调的前提下，设计一个即插即用的自动化流程，利用外部知识库对LLM的生成内容进行反馈和修正，从而提升其准确性？

方法 (Method)

论文提出了一种名为 REFEED (REtrieval FEEDback) 的新型工作流，其核心思想是“先生成，再检索，后优化”，将检索作为一种反馈机制而非传统的输入增强。

基础工作流 (Basic Pipeline)

REFEED的基础流程包含三个步骤，如下图1所示：

Step-1: 生成初始答案 (Generate an Initial Answer)
- 给定一个问题或查询 $x$ ，首先让LLM（如GPT-3.5）生成一个初步的、最可能的答案 $\hat{y}$ 。这一步通常采用贪心解码（greedy decoding）以保证结果的确定性。
Step-2: 检索相关文档 (Retrieve Documents)
- 关键创新点: 将初始问题 $x$ 和生成的初步答案 $\hat{y}$ 拼接起来，形成一个新的、更丰富的检索查询 [x, ŷ]。
- 使用这个新查询，通过一个检索模型（如BM25）从大规模文档库（如维基百科）中检索出一系列最相关的文档 $d_1, ..., d_n$ 。
- 这样做的好处是，初步答案 $\hat{y}$ 极大地弥补了原始问题 $x$ 与正确答案所在文档之间的“词汇和语义鸿沟”，使得检索到的文档与待验证的答案相关性更强。例如，直接用问题“新的黑魔法防御术老师是谁？”去检索，可能信息不足；但如果模型初步回答是“斯内普”，那么用“新的黑魔法防御术老师是谁？西弗勒斯·斯内普”去检索，更容易找到包含“斯内普”和“黑魔法防御术老师”的精确上下文。
Step-3: 优化先前答案 (Refine the Previous Answer)
- 将原始问题 $x$ 、初步答案 $\hat{y}$ 以及检索到的文档 $d_1, ..., d_n$ 一同作为上下文，再次输入给LLM。
- 提示（Prompt）LLM参考这些文档来回答原始问题，从而生成最终的、经过优化的答案 $y$ 。模型会根据检索到的信息来修正、确认或重写初始答案。

数学公式解读

传统Retrieve-then-Read模型: 其概率公式可以表示为在所有可能文档上进行边缘化的结果：

$p(y|x) = \sum_{i} p(y|d_i, x) p(d_i|x)$

这里，文档的检索只依赖于原始问题 $x$ 。
REFEED模型: 其概率公式体现了“先生成、后反馈”的思想：

$p(y|x) = \sum_{i} p(y|d_i, x, \hat{y}) p(d_i|\hat{y}, x) p(\hat{y}|x)$

这里的核心区别在于：
1. $p(\hat{y}|x)$ : 首先，模型会根据问题 $x$ 生成一个初始答案 $\hat{y}$ 。
2. $p(d_i|\hat{y}, x)$ : 然后，文档的检索是同时基于问题 $x$ 和初始答案 $\hat{y}$ 的，这体现了检索的“反馈”特性。
3. $p(y|d_i, x, \hat{y})$ : 最后，最终答案 $y$ 的生成是基于问题、初始答案和检索文档三者的。

增强模块 (Enhanced Modules)

为了进一步提升REFEED的性能和鲁棒性，论文设计了两个增强模块。

模块1: 多样化检索反馈 (Diversifying Retrieval Feedbacks)
- 思想: 单一的初始答案可能不是最优的，或者可能导致检索范围过窄。通过生成多个不同的初始答案，可以拓宽检索的覆盖面。
- 实现: 在Step-1中，不使用贪心解码，而是采用采样方法（如核采样, nucleus sampling）生成 $n$ 个不同的初始答案候选 ${\hat{y}_1, ..., \hat{y}_n}$ 。
- 对每一个候选答案 $\hat{y}_j$ ，都执行Step-2的检索操作，得到多组文档。
- 将所有检索到的文档合并，根据检索得分（如BM25得分）进行统一排序，并选取Top-k个文档用于Step-3的优化。
- 效果: 如下图2所示，这种方法增加了找到包含正确答案线索的文档的概率（提升Recall@K，见下图4），从而提高了最终答案的准确率。
  
  图4解读：相比仅用问题(“Q only”)或问题+单个答案(“Q+A”)进行检索，使用问题+多个多样化答案(“Q+A1,A2…An”)进行检索，在Top-1, Top-5, Top-10的文档中找到正确答案的召回率（Recall@K）显著更高。
模块2: 集成初始与反馈后输出 (Ensembling Initial and Post-Feedback Outputs)
- 思想: 检索到的文档并非总是可靠的，有时可能会包含误导性信息，导致模型将一个正确的初始答案改错（如下图5中的第二个例子）。
- 实现: 该模块引入一个决策机制。在生成最终答案后，比较初始答案和优化后答案的可信度，选择更可信的一个。
- 评判标准: 使用模型对答案的平均语言建模概率作为可信度的代理指标。
  - 反馈前的概率: $P_{before}(\hat{y}|x)$
  - 反馈后的概率: $P_{after}(y|x, \hat{y}, d)$
- 决策: 如果 $P_{before} > P_{after}$ ，则保留初始答案；反之，采纳优化后的答案。如下图3所示。
- 效果: 该方法有效结合了模型的内部知识（参数化知识）和外部知识（检索文档），缓解了检索噪声带来的负面影响。
  
  图3解读：模型计算出反馈前答案的概率为0.68，反馈后为0.65。由于反馈前的概率更高，最终选择保留初始答案。

Baseline (对比模型)

论文将REFEED与两类主流方法进行了比较：

闭卷模型 (Closed-book Methods): 不使用任何外部检索文档，完全依赖模型自身的参数化知识。
- InstructGPT (QA prompt): 标准的问答提示。
- GenRead: 先让模型生成相关知识，再基于生成的知识回答问题。
- Self-Prompting: 模型自己生成指令来引导回答。
开卷模型 (Open-book Methods): 遵循传统的“先检索，后阅读”(Retrieve-then-Read)模式。
- Retrieve-Read: 先用问题检索文档，然后将文档和问题一起输入模型进行阅读理解。
- RePLUG: 一种更先进的Retrieve-then-Read黑盒模型增强方法。

此外，论文还验证了REFEED与思维链 (Chain-of-Thought, CoT) 的兼容性，证明REFEED可以无缝集成到CoT流程中，进一步提升复杂推理任务的性能。

数据集 (Datasets)

实验在四个知识密集型任务的基准数据集上进行：

单跳问答 (Single-hop QA):
- NQ (Natural Questions): 来自谷歌搜索的真实用户查询。
- TriviaQA: 知识问答竞赛类型的问题。
多跳问答 (Multi-hop QA):
- HotpotQA: 需要结合多个文档信息进行推理才能回答的问题。
对话生成 (Dialogue Generation):
- WoW (Wizard of Wikipedia): 需要基于维基百科知识进行开放域对话。

评测指标: 主要使用精确匹配率 (Exact Match, EM)、F1分数 (F1 Score) 和 Rouge-L (R-L)。

可复现性 (Reproducibility)

代码: 论文承诺在会议评审结束后，会公开所有源代码和数据。
算力/模型:
- 主要模型: 实验主要基于 text-davinci-003 和 code-davinci-002 (Codex) 进行，这些是可通过OpenAI API访问的公开模型。
- 其他模型: 论文也在最新的ChatGPT (gpt-3.5-turbo) 和 GPT-4 上进行了验证性实验，证明了方法的普适性。
- 复现性考量: 论文明确指出，选择 davinci 系列作为主要模型是因为ChatGPT和GPT-4的参数会持续更新，导致实验结果难以复现。这一点体现了作者严谨的科研态度。
- 超参数: 论文附录中提供了详细的超参数设置，如最大输出长度、temperature等，便于他人复现。

可改进的几个点 (Potential Improvements)

根据论文的局限性分析和方法设计，可以预见以下几个改进方向：

任务泛化性: 当前的REFEED框架专为生成式任务设计。对于需要离散输出（如“是/否”）的分类任务，其适用性有限。未来的工作可以探索如何将这种“生成-反馈”机制应用于更广泛的任务类型。
对模型校准的依赖: 模块2中的集成方法依赖于比较模型的输出概率，这要求语言模型本身是相对良好校准的 (well-calibrated)。对于校准性差的模型，该方法效果可能下降。可以研究不依赖于模型原始概率的集成策略，例如训练一个独立的排序或验证模块。
检索噪声的鲁棒性: 尽管有集成模块，但错误的或有偏见的检索文档仍然可能误导模型。可以引入一个更强的事实校验 (Fact-checking) 或噪声过滤 (Noise-filtering) 模块，在Step-3之前对检索到的信息进行筛选和加权。
计算效率: REFEED相比直接提问增加了“初始生成”和“检索”两个环节的开销。虽然性能提升显著，但可以探索如何优化效率，例如使用更轻量的模型进行初始生成，或设计更高效的文档筛选策略以减少输入给大模型的上下文长度。

可以被引用的一些结论 (Quotable Conclusions)

核心贡献: 论文提出的REFEED是一种新颖的、即插即用的工作流，它创新地将检索用作一种反馈机制来事后优化LLM的输出，从而在无需微调的情况下显著提升了生成内容的准确性和事实性。
关键机制: 在检索查询中融合LLM的初始生成答案，是弥合问题与相关文档之间语义鸿沟的有效策略，能够显著提升检索文档的相关性和质量，这是整个反馈回路成功的关键。
显著的性能提升: 实验证明，与不使用检索反馈的基线相比，REFEED在零样本（zero-shot）设置下相对提升了25.7%，在少样本（few-shot）设置下相对提升了13.5%。
有效的增强策略: “多样化初始生成”和“集成反馈前后输出”是两种简单而有效的策略，能分别通过扩大证据覆盖面和抑制检索噪声来进一步提升系统的性能与鲁棒性。
良好的兼容性: REFEED框架可以与思维链（CoT）等先进的提示（prompting）技术互补结合，在处理如多跳问答等复杂推理任务时展现出更强的能力。