937のBlog

Atlas: Few-shot Learning with Retrieval Augmented Language Models

发表于2025-08-28|更新于2025-08-29|paper

问题 (Problem) 传统的大型语言模型（LLMs）在少样本学习（few-shot learning）上表现出色，但这通常依赖于巨大的参数量来存储世界知识。这引发了一个核心问题：强大的少样本学习能力是否必须与庞大的模型参数（即内置记忆）绑定？这篇论文旨在探讨是否可以将模型的“记忆”（知识存储）与“推理”（泛化能力）解耦。作者假设，通过将知识存储外包给一个外部的、可检索的知识库，模型可以将更多参数用于学习推理和泛化能力，从而在拥有较少参数的情况下，在知识密集型任务（如问答、事实核查）上实现卓越的少样本学习性能。本文的目标是设计并训练一个精心构建的检索增强语言模型——ATLAS，验证其在知识密集型任务上，仅用少量样本就能超越巨大参数量模型的潜力。方法 (Method) ATLAS 遵循一个统一的“文本到文本”（text-to-text）框架，其中所有任务都被建模为：输入一个文本查询（query），生成一个文本输出（output）。其核心是一个由**检索器（Retriever）和语言模型（Language Model）**组成的双模块架构。模型架构 (Architectu...

REPLUG: Retrieval-Augmented Black-Box Language Models

发表于2025-08-27|更新于2025-08-27|paper

问题 (Problem) 大型语言模型（LLMs）如GPT-3虽然强大，但存在两个核心问题：知识局限性：模型参数中存储的知识是静态的，无法实时更新，且对于长尾知识（rare knowledge）的覆盖不全，容易产生事实性错误或“幻觉”。黑盒特性：当前最先进的LLMs（通常 >100B 参数）往往通过API提供服务，用户无法访问模型的内部参数、梯度或进行微调。这使得传统的、需要“白盒”访问权限的检索增强方法（如RETRO、Atlas）无法适用。因此，本文的核心问题是：如何在只能“黑盒”访问（即只能输入文本、获取输出）的前提下，通过外部知识库对大型语言模型进行有效的检索增强，以提升其性能并减少幻觉？方法 (Method) 作者提出了 REPLUG (Retrieve and Plug) 框架，它将语言模型视为一个不可更改的黑盒，并将一个可调优的检索器作为插件来增强它。 REPLUG 推理过程 REPLUG的推理过程分为两步：文档检索和输入重构与集成。 REPLUG 推理流程图（论文Figure 2）文档检索 (Document Retrieval) 给...

Zero-Shot Dense Retrieval with Embeddings from Relevance Feedback

发表于2025-08-24|更新于2025-08-24|paper

问题 (Problem) 在信息检索领域，密集检索（Dense Retrieval）系统通常需要大量的标注数据（即“查询-相关文档”对）进行训练才能达到良好效果。但在许多场景下，这种标注数据是稀缺或不存在的。因此，如何在没有标注数据的情况下（即零样本 Zero-Shot 场景）构建高效的密集检索系统，是一个核心挑战。现有的SOTA（State-of-the-art）方法，如HyDE，尝试使用大语言模型（LLM）来解决这个问题。它的思路是：针对一个用户查询，让LLM生成一篇“假想的”（hypothetical）相关文档，然后用这篇假想文档的向量去寻找语料库中内容最相似的真实文档。然而，这种依赖LLM生成假想文档的方法存在三个主要缺陷：知识局限性：该方法严重依赖LLM自身的参数化知识。如果查询涉及特定或专有领域（如公司内部文档），LLM可能无法生成高质量、有事实依据的假想文档。效率低下：对于每个查询，LLM都需要生成一篇完整的文档（包含大量token），这个生成过程非常耗时，导致检索延迟很高。内容不可靠：即使给LLM提供一些参考文档作为上下文，它在生成内容时也可能出现幻觉...

Gecko: Versatile Text Embeddings Distilled from Large Language Models

发表于2025-08-21|更新于2025-08-24|paper

问题 (Problem) 论文旨在解决当前文本嵌入模型领域的核心挑战：如何创建一个既紧凑又通用的文本嵌入模型。现有方法存在以下痛点：通用性差：许多模型在特定任务（如语义相似度）上表现优异，但在跨任务、跨领域（如信息检索、分类、聚类等）的泛化能力上表现不佳。数据依赖严重：要构建一个覆盖多领域、多任务的通用模型，通常需要海量的、高质量的人工标注数据。这个过程不仅成本高昂、耗时费力，而且难以覆盖所有场景。模型效率问题：为了追求高性能，模型往往变得越来越大（例如参数量超过70亿），嵌入维度也越来越高（例如超过4000维），这给实际部署和应用带来了巨大的计算和存储开销。因此，本文的核心问题是：我们能在多大程度上直接利用大型语言模型（LLM）中蕴含的丰富世界知识，来蒸馏出一个紧凑、高效且在多种任务上都表现出色的通用文本嵌入模型？方法 (Method) 本文提出了 Gecko，一个通过两步式LLM知识蒸馏流程训练得到的文本嵌入模型。其核心是创建了一个名为 FRet (Few-shot Prompted Retrieval dataset) 的高质量合成数据集。 FRet：两步...

Multilingual E5 Text Embeddings

发表于2025-08-21|更新于2025-08-21|paper

核心问题 (Problem) 现有的文本嵌入（Text Embedding）模型大多只在英文语料上进行训练，这极大地限制了它们在多语言场景下的应用。为了解决这一问题，微软的研究人员开发了一系列名为mE5（multilingual E5）的开源多语言文本嵌入模型，旨在提供在多种语言上都表现出色的高质量文本表示能力。核心方法 (Method) 该论文的核心方法沿用了其英文版E5模型的两阶段训练流程：弱监督对比学习预训练 + 监督微调。此外，还引入了一个创新的**指令微调（instruction-tuned）**版本。模型架构与初始化研究人员发布了三种不同规模的模型，以平衡效果和效率： mE5-small: 基于multilingual-MiniLM初始化。 mE5-base: 基于xlm-roberta-base初始化。 mE5-large: 基于xlm-roberta-large初始化。第一阶段：弱监督对比学习预训练 (Weakly-supervised Contrastive Pre-training) 此阶段的目标是让模型从海量无标注或弱标注数据中学习通用的多语言...

Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training

发表于2025-08-19|更新于2025-08-19|paper

这是一篇关于如何改进无监督密集检索模型的论文。密集检索（Dense Retrieval）通过将查询（Query）和文档（Passage）都编码成向量，然后在向量空间中寻找最相似的文档来工作。问题 (Problem) 传统的密集检索模型严重依赖大量的人工标注数据，这使得它们在新领域的应用成本高昂且泛化能力不足。为了解决这个问题，研究界提出了无监督的对比预训练方法，例如 Contriever 模型。这类方法通过在无标签的文档中自动构建正样本对（例如，从同一篇文档中随机裁剪出两段文字作为“查询”和“相关文档”）来进行学习。然而，这种自动构建的方式存在一个核心缺陷：“假正例”（False Positives）问题。如下图1所示，一篇文档中相邻的两个句子也可能在语义上毫不相关。如果模型被强制认为它们是相关的，就会学习到错误的表示，从而损害检索性能。图1：论文中的一个例子，源自维基百科。高亮的两个句子虽然来自同一篇文章，但内容上几乎没有关联。随机裁剪很容易将它们构造成一个“假正例”对。本文提出的 ReContriever 模型，旨在解决无监督预训练中的“假正例”问题。方法 (M...

How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval

发表于2025-08-17|更新于2025-08-17|paper

问题 (Problem) 传统的稠密检索（Dense Retrieval, DR）模型普遍存在一个核心问题：在监督式评测和零样本（Zero-shot）评测之间存在明显的性能权衡（trade-off）。具体来说，一个在特定数据集（如 MS MARCO）上通过监督学习训练得很好的模型，在从未见过的新领域（零样本场景）上往往表现不佳，反之亦然。如 Figure 1 所示，大多数现有的检索器（除了参数量巨大（4.8B）的 GTR-XXL）都分布在一条倾斜的直线上，显示了“监督式评测”得分（X轴）和“零样本评测”得分（Y轴）之间的负相关关系。当时的普遍观点认为，要打破这种权衡，必须大幅增加模型（如BERT-base）的容量。本文的核心目标：挑战上述观点，证明在不增加模型大小（仍使用 BERT-base 级别）的前提下，通过一种更优的训练方法，可以训练出一个在监督式和零样本场景下均达到顶尖水平（State-of-the-Art, SOTA）的通用稠密检索器。 Figure 1 解读: 坐标轴: X轴: Supervised evaluation (MS MARCO Dev: RR@...

ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction

发表于2025-08-17|更新于2025-08-17|paper

问题 (Problem) 传统的神经信息检索（Neural IR）模型主要分为两类，各自有明显的优缺点：单向量（Single-Vector）模型: 工作方式: 将查询（query）和文档（document）分别编码成一个高维向量，然后通过计算这两个向量的点积来评估相关性。优点: 存储开销小，检索速度快。缺点: 表达能力有限且脆弱。模型需要将查询和文档的所有复杂语义关系压缩到一个单一的向量点积中，这对编码器提出了极高的要求。晚期交互（Late Interaction）模型 (如 ColBERTv1): 工作方式: 将查询和文档的每个词元（token）都编码成一个向量，形成多向量表示。相关性计算分解为词元级别的计算，例如计算每个查询词元向量与所有文档词元向量的最大相似度之和 [: 20]。优点: 效果好，表达能力强，因为它将复杂的匹配任务交给了交互机制，减轻了编码器的负担。缺点: 空间占用巨大。由于需要为每个词元存储一个向量，其索引大小比单向量模型大一个数量级，这在网络规模的语料库上是难以接受的。核心问题: 如何在保持晚期交互模型强大效果（Effec...

Making LLMs A Better Foundation For Dense Retrieval

发表于2025-08-13|更新于2025-08-21|paper

这篇论文的核心贡献是提出了一种名为 LLaRA (LLM adapted for dense RetrivAl) 的新方法，旨在解决大型语言模型（LLMs）在直接应用于稠密检索任务时的根本性问题。它通过一个高效的“事后适应”（post-hoc adaptation）阶段，显著提升了LLM作为检索模型基座（backbone）的能力。问题 (Problem) 大型语言模型（LLMs）虽然在语义理解上能力强大，但其预训练方式与稠密检索的需求存在天然的“鸿沟” 。 LLM的预训练目标：LLM（如GPT系列）主要通过自回归的文本生成任务进行预训练，其目标是预测下一个词元（token）。这使得模型生成的文本嵌入（text embedding）更侧重于捕捉**局部和短期（local and near-future）**的语义信息，以便生成连贯的下文。稠密检索的需求：稠密检索需要将查询（query）和文档（document）映射到一个语义空间中，并通过向量相似度来判断其相关性。这要求文本嵌入能够高度概括和表示**全局（global）**的语义信息。核心矛盾：直接使用LLM（尤其是de...

Precise Zero-Shot Dense Retrieval without Relevance Labels

发表于2025-08-12|更新于2025-08-17|paper

问题 (Problem) 传统的密集检索（Dense Retrieval）系统严重依赖大规模的、人工标注的“查询-文档”相关性数据进行训练。然而，在许多新的或特定的领域中，获取这样的标注数据成本高昂、耗时巨大，甚至是不可能的。因此，如何在没有任何相关性标签（即“零样本”或“完全无监督”）的情况下，构建一个开箱即用且性能强大的密集检索系统，是一个核心的挑战。方法 (Methodology) 为了解决上述问题，论文提出了 HyDE (Hypothetical Document Embeddings，假设性文档嵌入) 方法。其核心思想是绕过对“查询-文档”相关性的直接建模，而是将其分解为两个独立的、更容易处理的任务。工作流程图解 (Figure 1) 该图清晰地展示了 HyDE 的两步流程：生成 (Generation)：用户的查询 (query) 首先与一个任务指令 (instruction) 相结合，然后被送入一个遵循指令的大语言模型（如 GPT）。该模型会生成一个“假设性”的文档，这个文档虽然内容可能是虚构的（包含幻觉），但它在语义和结构上捕捉了真实相关文档的特征。 ...