RAG 效果评估

介绍 RAG 系统如何评估检索命中、引用准确性、回答忠实度和用户反馈。

RAG 效果评估解决的是判断 RAG 是否真的在变好这个问题。它关心检索命中、引用准确性、回答忠实度和用户反馈。

在 Way To Agent 的知识体系里，这篇文章关注的是 RAG 系统如何评估检索命中、引用准确性、回答忠实度和用户反馈。

为什么不能只看最终答案

只看最终答案，会把很多问题掩盖掉。

比如：

如果不把这些层次拆开，最后只会得到一句模糊判断：效果不稳定。这对系统优化几乎没有帮助。

效果评估的工作方式是把检索、引用和最终答案拆开看，再分别判断它们是否在变好。

用户输入
  -> 业务上下文与权限判断
  -> 数据、检索、Prompt 或工具编排
  -> 模型调用或确定性服务执行
  -> 结构化校验、引用、日志和反馈

RAG 评估最核心的不是打一个总分，而是知道问题出在链路哪一层。

评估样本通常来自三类来源：

这三类样本的作用不同：

如果只有第一类样本，系统很容易在测试里看起来稳定，在线上却继续出问题。

最容易误导人的，是把单个指标当成整体质量。

例如：

RAG 评估天然是多层的，任何单一指标都只能解释一部分问题。

当效果评估相关功能表现不稳定时，不要先猜模型不好。更有效的排查顺序是：

输入是否明确
上下文是否正确
权限与数据范围是否匹配
Prompt / 工具 / 检索配置是否符合预期
模型调用是否超时、限流或输出不合规
日志、引用和评估样例是否能复现问题

排查评估问题时，先把样本、指标和链路层次对应起来，比盯着总分更重要。

RAG 效果评估的核心不是记住一个名词，而是理解它在 AI 应用链路中的责任边界。RAG 评估要分层，否则只看最终答案会掩盖解析、检索和生成各自的问题。

1. 把检索、引用、生成三层评估拆开。
2. 分清标准样本、真实问题、失败样本各自的用途。
3. 不要只设计总分，要设计能定位问题层次的指标。

04-rag/001-what-is-rag.md
04-rag/002-rag-architecture.md
04-rag/003-document-parsing.md