A survey on augmenting KGs with LLMs: models, evaluation metrics, benchmarks,mand challenges

引言 (Introduction)

当前，各行各业（如医疗、金融）数据量爆炸式增长，但传统数据管理系统在处理复杂、互联的数据时显得力不从心，常常导致信息检索效率低下和决策不优。主要问题包括：数据碎片化、信息孤岛等。

为了解决这些问题，研究者们将目光投向了两种先进技术：

知识图谱 (Knowledge Graphs, KGs)：善于用结构化的方式组织和管理知识，能够进行高效的复杂查询和推理。
大语言模型 (Large Language Models, LLMs)：在理解和生成自然语言方面表现卓越。

将二者结合，可以创造出一个强大的框架，既能处理非结构化文本，又能利用结构化知识，从而提升AI系统进行实时数据分析和高效决策的能力。

论文的核心贡献在于，系统性地将LLM与KG的集成方法分为三大范式，并对每种方法的优势、劣下及应用进行了深入探讨。

大语言模型 (LLM) 背景知识

LLMs是基于海量文本数据预训练的深度学习模型，在自然语言处理（NLP）领域取得了革命性突破。

发展历程
- 90年代: 统计模型，如 N-grams 和隐马尔可夫模型 (HMMs)。
- 2013-2014年: 词嵌入技术，如 ✅ Word2Vec (论文链接) 和 ✅ GloVe (论文链接)，以及循环神经网络 (RNNs)。
- 2017年: ✅ Transformer 架构 (论文链接) 的提出，其自注意力机制成为现代LLM的基石。
- 2018年至今: 基于Transformer的模型井喷式发展。
主流LLM模型
- ✅ OpenAI GPT系列:
  - GPT-3: 拥有1750亿参数，展示了强大的文本生成和少样本学习（Few-shot Learning）能力。(论文链接)
  - GPT-4: 在理解和生成类人文本方面能力更强。(论文链接)
- ✅ Google模型:
  - BERT: 引入双向训练，深刻提升了模型的语境理解能力。(论文链接)
  - T5: 将所有NLP任务统一为“文本到文本”的格式，通用性极强。(论文链接)
  - PaLM: 通过高效扩展提升了模型的泛化和性能。(论文链接)
  - Gemini: 专注于多模态能力，可以整合文本、图像等多种数据。(论文链接)
- ✅ Meta模型:
  - RoBERTa: 对BERT的训练方式进行了优化，性能更强。(论文链接)
  - LLaMA: 专注于效率和可扩展性，旨在让更多人能使用高性能的语言模型。(论文链接)
LLM的架构分类
1. 编码器-仅编码器 (Encoder-only): 如BERT，擅长理解文本，适用于文本分类、实体识别等任务。
2. 解码器-仅解码器 (Decoder-only): 如GPT系列，擅长生成文本，适用于对话系统、文章写作等任务。
3. 编码器-解码器 (Encoder-Decoder): 如T5、BART，结合了前两者的优点，适用于翻译、摘要等需要先理解输入再生成输出的任务。
LLM的局限性
1. 幻觉 (Hallucination): 生成看似合理但与事实不符的信息。
2. 上下文理解有限: 难以处理需要多步推理或深厚背景知识的复杂查询。
3. 缺乏领域知识: 在医疗、法律等专业领域，知识的精确性不足。
4. 知识更新不及时: 模型的知识停留在其训练数据的时间点。

这些局限性恰好可以通过知识图谱的结构化、可验证的知识来进行弥补。

知识图谱 (KG) 背景知识

KG是一种用图结构来表示实体（如人、地点、概念）及其之间关系的知识库。

核心组成
- 节点 (Nodes): 代表实体。
- 边 (Edges): 代表实体间的关系。
- 本体 (Ontology): 定义了实体和关系的类型、属性和规则，为KG提供了语义框架。
KG的类型
- 领域特定KG: 专注于特定领域，如医疗领域的SNOMED CT、金融领域的FIBO。
- 跨领域KG: 覆盖广泛的知识，如DBpedia、Wikidata、Google Knowledge Graph。
- 企业KG: 在组织内部使用，整合内部数据和流程。
商业应用案例
- 搜索引擎: 提升搜索结果的准确性和相关性。
- 推荐系统: 通过理解用户和物品间的深层关系提供更精准的推荐。
- 临床决策支持: 整合病历、医学文献和药物信息，辅助医生决策。
- 供应链管理: 建模和优化复杂的供应链网络。
- 金融风控: 识别欺诈网络和洗钱等非法活动。
KG的局限性
1. 构建和维护成本高: 需要大量的数据整合、清洗和更新工作。
2. 数据不完备性: 输入数据的不完整或错误会导致推理结果不可靠。
3. 表达能力有限: 难以表示模糊、复杂或主观的信息。

LLM与KG的集成方法

论文将集成方法分为三大范式，这是全文的核心。

范式一：知识图谱增强的LLM (KG-Enhanced LLMs)

目标：利用KG来提升LLM的性能、可解释性，并减少幻觉。
核心思想：将KG中的结构化知识“注入”到LLM中。

实现路径:
1. 预训练阶段集成: 在LLM预训练时，就将KG的知识（如实体、关系）作为训练目标之一。
  - ✅ KEPLER模型: 该模型同时对KG的知识嵌入和文本描述进行编码，统一了知识表示和语言表示。(论文链接)
2. 微调阶段集成 (Fine-tuning): 将KG中的实体和关系提取出来，转换成向量或文本形式，用于微调预训练好的LLM，使其适应特定领域的知识。
3. 推理阶段集成 (Inference): 在LLM生成回复时，通过一个检索模块（如RAG）从KG中查询相关信息，并将这些信息作为上下文提供给LLM，引导其生成基于事实的、更准确的回答。

范式二：LLM增强的KG (LLM-Augmented KGs)

目标：利用LLM强大的自然语言理解能力来自动化KG的构建、补全和应用。
核心思想：让LLM成为处理和理解文本的“前端”，为KG的“后端”提供高质量的结构化输入。

实现路径:
1. KG构建 (KG Construction):
  - ✅ 命名实体识别 (NER) 和 关系抽取 (Relation Extraction): 使用LLM从海量非结构化文本中自动识别实体并抽取出它们之间的关系，以构建或扩展KG。
2. KG补全 (KG Completion): LLM可以预测KG中缺失的链接（关系），补全不完整的知识。
3. KG问答 (KG Question-Answering): LLM可以将用户的自然语言问题转换成可以在KG上执行的结构化查询语言（如SPARQL, Cypher），让普通用户也能轻松查询复杂的图数据库。

范式三：LLM与KG协同框架 (Synergized LLMs + KGs)

目标：构建一个统一的框架，使LLM和KG能够相互促进、循环增强。
核心思想：LLM利用KG的知识进行推理和生成，同时LLM从新文本中抽取的信息又能反过来更新和丰富KG，形成一个动态的、自洽的知识系统。这种协同关系可以提升AI系统在复杂查询、可解释性和信息准确性方面的综合能力。

高级应用案例研究

✅ 检索增强生成 (Retrieval-Augmented Generation, RAG)
- 机制: 这是一个典型的“KG-Enhanced LLMs”应用。当收到一个问题时，系统首先从外部知识库（可以是KG或文档库）中检索最相关的信息片段，然后将这些信息片段与原始问题一起输入给LLM，让LLM基于这些可靠的上下文来生成答案。
- 优点: 极大地减少了“幻觉”，提高了答案的事实准确性，并且知识库可以独立于LLM进行更新。
- 论文链接: Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
✅ 序列融合 (Sequential Fusion)
- 机制: 这是一种两阶段方法。第一阶段，使用一个通用的LLM从复杂文本中提取结构化知识并构建成临时的KG。第二阶段，将这个KG中的知识转换成自然语言描述，再用这些描述来“编辑”或更新一个领域特定的LLM，从而在不进行大规模重新训练的情况下，高效地将新知识融入模型。
- 论文链接: Zhang, X., et al. (2024). LLMs Instruct LLMs: An Extraction and Editing Method.

评估指标与基准

为了科学地衡量LLM与KG集成模型的效果，需要一系列评估标准。

常用评估指标
- 准确率 (Accuracy), 精确率 (Precision), 召回率 (Recall), F1-Score: 衡量分类或预测的准确性。
- BLEU, ROUGE: 衡量生成文本（如翻译、摘要）与参考文本的相似度。
- Hits@k: 在链接预测或推荐任务中，衡量正确答案出现在前k个候选项中的频率。
- 时间成本 (Time Cost), GPU占用率 (GPU Occupancy): 衡量模型的计算效率。
常用基准 (Benchmarks)
- 语言理解类: GLUE, SuperGLUE
- 问答类: SQuAD, CommonsenseQA
- KG补全与图学习类: WikiKG90M, Open Graph Benchmark (OGB)
- KG问答类: WebQuestionsSP, GrailQA

挑战与未来方向

当前面临的挑战

LLM自身挑战: 幻觉、知识过时、推理能力不稳定、黑盒特性等。
KG自身挑战: 数据异构、噪声数据、数据更新、多模态和跨语言知识融合等。
集成过程的挑战:
- 计算开销巨大: 预训练和微调过程需要极高的计算资源。
- 数据隐私: KG中可能包含敏感信息，集成时有泄露风险。
- 事实校验复杂: 验证LLM的输出是否与KG中的事实一致，本身就是一个难题。
- KG维护: 动态变化的知识要求KG必须持续更新，否则会影响LLM的输出质量。

未来研究方向

✅ 利用KG检测和减轻LLM的幻觉:
- 进展: 近期研究已开始探索使用KG作为事实的“锚点”，来验证LLM生成内容的真实性。当LLM生成一个事实性陈述时，可以将其分解为（主语，谓语，宾语）三元组，并在KG中查询是否存在或冲突。
- 相关论文示例: KG-GPT: A Knowledge-Graph-Informed Language Model for Actionable Conversation (这篇论文探索了利用KG指导LLM生成更可靠的回复)。
✅ LLM知识编辑:
- 进展: 研究如何高效地修改或向LLM中注入新知识，而无需完全重新训练。这与“序列融合”方法类似，但更侧重于对模型参数进行微小、精准的修改。
- 相关论文示例: MEND: Fast Model Editing at Scale (一篇关于模型编辑的代表性工作)。
多模态LLM与KG的结合: 将图像、声音等信息与KG中的实体对齐，构建多模态知识图谱，并让LLM能够基于这种图谱进行跨模态的理解和推理。
提升双向推理能力: 在协同框架中，不仅让KG增强LLM，也让LLM的推理能力反过来帮助发现KG中隐含的、更复杂的逻辑关系。
与图数据库的无缝集成: 研发更高效的数据交换和查询转换技术，使LLM能够像与人类对话一样自然地与复杂的图数据库进行交互。
偏见缓解: 利用领域特定的、经过审核的KG来识别和纠正LLM输出中的偏见。