当前位置：首页 > news >正文

RAGAS：检索增强生成系统的无参考评估框架与技术解析

news 2025/8/8 11:04:29

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

一、核心定义与原始论文

RAGAS（Retrieval-Augmented Generation Assessment） 是由研究者于2023年提出的无需人工标注参考答案的RAG系统评估框架。其核心创新在于通过信息论驱动的指标设计，解决传统评估方法（如BLEU、ROUGE）在RAG场景中的局限——这些方法无法量化检索质量与生成内容的事实一致性。

原始论文信息：

Es, S., James, T., et al. (2023).
RAGAS: Automated Evaluation of Retrieval Augmented Generation.
arXiv:2309.15217.
论文地址：https://arxiv.org/pdf/2309.15217.pdf
代码库：https://github.com/explodinggradients/ragas

该论文首次提出四类无参考指标，覆盖检索与生成双维度：

Context Precision/Recall：评估检索质量
Faithfulness：衡量生成内容与证据的一致性
Answer Relevancy：量化答案对问题的针对性
RAGAS Score：综合指标的加权得分（0-1范围）

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.Self-RAG：基于自我反思的检索增强生成框架技术解析
19.DocBench：面向大模型文档阅读系统的评估基准与数据集分析
18.哲学中的主体性：历史演进、理论范式与当代重构
17.FLAN-T5：大规模指令微调的统一语言模型框架
16.Do-Calculus：因果推断的演算基础与跨领域应用
15.同质无向加权图：理论基础、算法演进与应用前沿
14.大模型智能体(Agent)技术全景：架构演进、协作范式与应用前沿
13.GraphRAG：基于知识图谱的检索增强生成技术解析
12.机器学习消融实验：方法论演进、跨领域应用与前沿趋势
11.Agentic RAG：自主检索增强生成的范式演进与技术突破
10.FEVER数据集：事实验证任务的大规模基准与评估框架
9.噪声对比估计（NCE）：原理、演进与跨领域应用
8.对比学习：原理演进、技术突破与跨领域应用全景
7.掩码语言模型(MLM)技术解析：理论基础、演进脉络与应用创新
6.RAG：检索增强生成的范式演进、技术突破与前沿挑战
5.皮尔逊相关系数的理论基础、统计特性与应用局限
4.编辑距离：理论基础、算法演进与跨领域应用
3.ROUGE-WE：词向量化革新的文本生成评估框架
2.互信息：理论框架、跨学科应用与前沿进展
1.表征学习：机器认知世界的核心能力与前沿突破

二、评估指标体系与计算方法

2.1 检索质量指标

Context Precision（上下文精确度）：
度量检索结果中相关文档的比例，计算公式：
$Documents}∣\text{Precision} = \frac{|\{\text{Relevant Documents}\} \cap \{\text{Retrieved Documents}\}|}{|\{\text{Retrieved Documents}\}|}$
低值表明检索噪声大，污染生成输入。
Context Recall（上下文召回率）：
评估检索系统覆盖全部相关文档的能力：
$Documents}∣\text{Recall} = \frac{|\{\text{Relevant Documents}\} \cap \{\text{Retrieved Documents}\}|}{|\{\text{Relevant Documents}\}|}$
需人工提供基准答案（ground truth）计算，高值反映检索完整性。

2.2 生成质量指标

Faithfulness（忠实度）：
检测生成内容是否基于检索证据，分三步计算：
1. 语句提取：LLM分解答案生成原子语句集合 $\{s_1, s_2, \dots, s_n\}$
2. 证据验证：对每个 $s_i$ ，判断其是否可由检索上下文 $c (q)$ 推论得出（输出Yes/No）
3. 分数计算： $\frac{|V|}{|S|}$ ，其中 $V$ 为可验证语句数
  示例：若答案含5句，其中3句被上下文支持，则 $F = 0.6$ 。
Answer Relevancy（答案相关性）：
评估答案对问题的直接响应程度，通过逆向问题生成实现：
1. 基于答案 $a (q)$ ，生成 $k$ 个潜在问题 $\{q_1, q_2, \dots, q_k\}$
2. 计算原始问题 $q$ 与每个 $q_i$ 的嵌入余弦相似度
3. 取相似度均值： $AR=1k∑i=1ksim(q,qi)\text{AR} = \frac{1}{k} \sum_{i=1}^{k} \text{sim}(q, q_i)$
  设计原理：相关答案应能反推与原问题语义一致的新问题。

2.3 综合指标：RAGAS Score

通过加权融合核心指标生成全局评分：
$Score=∑iwi⋅normalize(Mi)\text{RAGAS Score} = \sum_{i} w_i \cdot \text{normalize}(M_i)$
其中 $Mi∈{Precision,Recall,Faithfulness,Relevancy}M_i \in \{\text{Precision}, \text{Recall}, \text{Faithfulness}, \text{Relevancy}\}$ ，权重 $w_i$ 依场景调整（如医疗领域侧重Faithfulness）。

表：RAGAS指标分类与功能

指标类型	名称	评估目标	依赖人工标注
检索指标	Context Precision	检索结果相关性	否
	Context Recall	检索结果覆盖率	是
生成指标	Faithfulness	证据一致性	否
	Answer Relevancy	问题响应质量	否
综合指标	RAGAS Score	系统整体性能	部分