Way To Agent
RAG 知识库工程

RAG 效果评估

介绍 RAG 系统如何评估检索命中、引用准确性、回答忠实度和用户反馈。

RAG 知识库工程intermediateRAG评估召回率忠实度用户反馈

RAG 效果评估

RAG 效果评估解决的是判断 RAG 是否真的在变好这个问题。它关心检索命中、引用准确性、回答忠实度和用户反馈。

在 Way To Agent 的知识体系里,这篇文章关注的是 RAG 系统如何评估检索命中、引用准确性、回答忠实度和用户反馈。

为什么不能只看最终答案

只看最终答案,会把很多问题掩盖掉。

比如:

  • 答案错了,可能是没召回到正确片段
  • 答案看起来对了,但引用片段其实不支撑这个结论
  • 检索命中了,生成却偏离了引用

如果不把这些层次拆开,最后只会得到一句模糊判断:效果不稳定。这对系统优化几乎没有帮助。

评估要拆成哪几层

效果评估的工作方式是把检索、引用和最终答案拆开看,再分别判断它们是否在变好。

用户输入
  -> 业务上下文与权限判断
  -> 数据、检索、Prompt 或工具编排
  -> 模型调用或确定性服务执行
  -> 结构化校验、引用、日志和反馈

RAG 评估最核心的不是打一个总分,而是知道问题出在链路哪一层。

评估样本从哪里来

评估样本通常来自三类来源:

  • 人工编写的标准问答集
  • 真实用户问题和反馈
  • 系统运行日志里反复出现的失败样本

这三类样本的作用不同:

  • 标准问答集适合做回归验证
  • 真实用户问题能反映开放场景
  • 失败样本最适合用来做针对性修复

如果只有第一类样本,系统很容易在测试里看起来稳定,在线上却继续出问题。

哪些指标最容易误导

最容易误导人的,是把单个指标当成整体质量。

例如:

  • 只看召回率,不看召回结果是否真的进入答案
  • 只看最终答案,不看答案是否忠实于引用
  • 只看离线样本得分,不看真实用户反馈

RAG 评估天然是多层的,任何单一指标都只能解释一部分问题。

最常见的误解

  • 最终答案对了,系统就一定是健康的。
  • 召回率高,说明 RAG 效果就好。
  • 只要做一次离线评测,就能代表线上表现。
  • 用户没投诉,就说明评估可以先不做。

怎么排查

当效果评估相关功能表现不稳定时,不要先猜模型不好。更有效的排查顺序是:

输入是否明确
上下文是否正确
权限与数据范围是否匹配
Prompt / 工具 / 检索配置是否符合预期
模型调用是否超时、限流或输出不合规
日志、引用和评估样例是否能复现问题

排查评估问题时,先把样本、指标和链路层次对应起来,比盯着总分更重要。

一句话结论

RAG 效果评估的核心不是记住一个名词,而是理解它在 AI 应用链路中的责任边界。RAG 评估要分层,否则只看最终答案会掩盖解析、检索和生成各自的问题。

上手前先画清楚

1. 把检索、引用、生成三层评估拆开。
2. 分清标准样本、真实问题、失败样本各自的用途。
3. 不要只设计总分,要设计能定位问题层次的指标。

继续阅读

04-rag/001-what-is-rag.md
04-rag/002-rag-architecture.md
04-rag/003-document-parsing.md