2 of 11

研究背景

传统RAG有哪些不足？

复杂查询理解困难：基于向量相似度的检索方法难以捕捉专业领域问题中的复杂实体和语义关系
分散知识整合不足：分块索引方式处理分散在不同数据源的领域知识时，牺牲了关键的上下文信息，显著降低了检索准确性和上下文理解能力
系统效率瓶颈：基于向量相似度的检索方法缺乏对从庞大知识库中检索内容的有效过滤，提供过多但可能不必要的信息

3 of 11

研究背景

GraphRAG的不同阶段

知识组织阶段：提取原有知识库中的实体与关系，构建结构化知识图谱
知识检索阶段：通过遍历知识图谱挖掘其中隐藏的多跳知识关系，形成相关知识子图
知识集成阶段：融合多知识源结构层次化的信息，促进生成连贯且可解释的回答

Zhang et al. 2025. A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models. arXiv:2501.13958.

4 of 11

研究动机

待解决的问题

GraphRAG是否是一个通用的解决方案？
GraphRAG在哪些任务上能够更好地发挥优势？
GraphRAG为何能够优化信息组织、检索和整合？

GraphRAG需要一个评估方案

5 of 11

Benchmark介绍

Benchmark特点

分级别、分难度问题设置
专有领域/通用领域知识源
点对点评估方案

6 of 11

Benchmark介绍

分级别、分难度问题设置

事实检索类：考察系统在简单任务场景下的单步信息检索能力
复杂推理类：考察系统在多跳推理任务场景下的多步信息整合与深度推理能力
内容总结类：考察系统在总结任务场景下的广度信息检索与整合能力
创意生成类：考察系统在开放性任务场景下的信息检索、整合与生成能力

7 of 11

Benchmark介绍

专有领域/通用领域知识源

小说数据源

与现实知识隔离，避免模型预训练知识干预

医疗数据源

提供领域知识
实体关系较为集中

相比现有benchmark，GraphRAG-Bench的不同实体之间的关系更加紧密

8 of 11

实验结果

生成评估结果

在事实检索类任务上，RAG生成性能更好
随着检索难度的增加，GraphRAG开始发挥其在信息组织整合的优势
GraphRAG在专有领域（medical）数据源上的性能优势更为明显

GraphRAG在不同等级任务上的生成性能评估

ACC、ROUGE-L：评估生成结果准确性

Cov：评估答案对知识点的覆盖程度

FS：评估答案与检索上下文的一致性

9 of 11

实验结果

检索评估结果

在事实检索类任务上，RAG能更好定位与问题直接相关的离散事实
GraphRAG在复杂推理和多跳推理任务中，能更好整合分散信息
部分GraphRAG会引入过多的冗余信息，降低效率

GraphRAG在不同等级任务上的检索性能评估

Recall：评估检索信息是否包含所有问题相关信息

Relevance：评估检索信息与问题相关的程度

10 of 11

展望

未来的GraphRAG需要重点关注的角度

多任务适配性：目前的GraphRAG在较为直接的信息检索任务上效果不如RAG，如何促进GraphRAG在更多任务场景下的适配性
检索性能优化：目前的GraphRAG存在引入过多冗余信息的缺陷，如何在提高检索信息的全面性同时提高相关性
效率和成本兼顾：目前的GraphRAG在知识组织和知识检索阶段导致了较多的tokens消耗，如何在保障性能的同时兼顾效率和成本

1 of 11

2 of 11

3 of 11

4 of 11

5 of 11

6 of 11

7 of 11

8 of 11

9 of 11

10 of 11

11 of 11