什么是 AI Agent

解释 AI Agent 的定义、组成和边界，为后续 RAG、工具调用、记忆、规划和编排知识建立主线。

AI Agent 是一种以大模型为推理核心的智能体应用系统。它不只是执行预先写死的流程，而是在约束范围内分析目标、读取上下文、选择工具、观察结果，并决定下一步如何推进。

如果一个系统只能回答“RAG 是什么”，它更像 Chatbot。如果它能判断这个问题需要查知识库，调用检索工具，读取引用内容，组织答案，并记录这次回答用了哪些来源和多少成本，它就开始接近 Agent。

但 Agent 也不等于 AI Workflow。Workflow 的强项是把稳定步骤固定下来：收到用户问题后，先检索知识库，再把结果交给模型总结，最后返回答案。Agent 的关键是模型参与决策：当前信息够不够、要不要先追问、该不该检索、该调用哪个工具、工具结果是否可信、下一步继续还是停止。

所以，Agent 不是“更会聊天的模型”，也不是“给模型加几个函数”。它的关键变化是：模型不再只负责生成文本，而是参与任务执行过程。

可以用一句话理解：

AI Agent = 模型推理 + 外部知识 + 工具调用 + 状态管理 + 规划与动态决策 + 工程治理。

这不是公式，而是一个判断框架。看到一个系统宣称自己是 Agent，可以先问：它有没有目标？有没有外部知识？有没有工具？有没有状态？它的下一步是固定流程决定的，还是模型会根据上下文和反馈参与判断？有没有权限、日志、成本和失败处理？

AI Agent 架构总览

这张图强调的是 Agent 循环：模型不是只在最后生成答案，而是在理解目标、分析上下文、制定计划、观察结果和更新状态之间持续参与下一步判断。

拆开来看，Agent 至少包含几块能力：

模型推理：理解目标、分析上下文、生成下一步决策
外部知识：通过 RAG 或搜索获取模型不知道的信息
工具调用：连接 API、数据库、业务系统和外部服务
状态管理：记录当前步骤、历史结果、用户反馈和任务进展
规划与动态决策：根据目标、上下文和工具结果拆解任务、选择下一步
工程治理：处理权限、安全、成本、日志、评估和降级

这些能力缺一块，系统的形态就会变化。只有模型，没有工具，系统大多只能回答问题；只有工具，没有状态，系统很难完成多步骤任务；只有固定流程，没有规划与动态决策，更像 Workflow；只有动态决策，没有治理，系统很难进入真实业务。

Agent 通常不是一次调用完成，而是一个循环：

接收目标
  -> 理解上下文
  -> 判断下一步
  -> 调用工具或生成回答
  -> 观察结果
  -> 更新状态
  -> 继续推进或结束

这个循环看起来简单，真正落地时会立刻遇到边界问题：模型能调用哪些工具？工具参数如何校验？最多允许执行多少步？调用失败是否重试？用户是否需要确认高风险操作？中间状态保存在哪里？如何记录每一步成本和日志？

这些问题决定了 Agent 是一个演示 Demo，还是一个可以接入业务系统的工程能力。

理解 Agent，还要把它和几个相近概念分开。

Agent 和 Chatbot

Chatbot 主要围绕对话回复。Agent 更强调目标、行动和状态。一个 Chatbot 可以回答问题，一个 Agent 要能围绕目标决定下一步。

Agent 和 Workflow

Workflow 更像一张预先设计好的流程。它的优势是稳定、可预测、易审计，适合规则清楚的任务。Agent 更强调根据目标、上下文和反馈拆解任务、动态选择下一步，适合信息不完整、路径不固定、需要模型判断的任务。

真实系统里二者经常结合：稳定流程用 Workflow 固定下来，局部判断、生成、检索和工具选择交给 Agent。把所有事情都交给 Agent，风险会变高；把所有事情都固定成 Workflow，系统又会失去处理开放任务的能力。

Agent 和 RAG

RAG 解决的是“模型回答依据从哪里来”。Agent 解决的是“系统如何围绕目标持续推进任务”。RAG 可以是 Agent 的一个工具，也可以是 Agent 的知识来源；但只有 RAG，不等于拥有 Agent。

Agent 和 Tool Calling

Tool Calling 让模型能够选择工具并生成结构化参数。它是 Agent 的基础能力之一，但不是 Agent 的全部。Agent 还要处理工具执行后的状态更新、失败恢复、流程分支、权限控制和最终结果组织。

Agent 的能力越强，风险也越明显。

它可能调用错误工具，生成错误参数，在循环中反复尝试，引用不可靠内容，泄露敏感信息，或者产生不可控成本。因此，工程治理不是附加项，而是 Agent 能否落地的前提。

当你设计或评估一个可靠 Agent 时，至少要把这些问题落实到系统里：

哪些工具允许被调用？
工具参数如何校验？
状态保存在哪里？
最多执行多少步？
失败后如何恢复？
成本和额度如何限制？
每一步如何记录日志？
结果质量如何评估？

这也是 Way To Agent 后续章节要展开的内容。

如果你刚开始理解 Agent，可以按下面这条线继续读：

先理解 Agent 的基本形态：06-agent/001-what-is-agent.md
再理解模型调用、上下文和结构化输出：02-llm-basic/001-llm-basic-concepts.md
再理解 Prompt 如何约束任务：03-prompt-engineering/001-what-is-prompt-engineering.md
再理解 RAG 如何提供外部知识：04-rag/001-what-is-rag.md
再理解 Tool Calling 如何连接业务能力：06-agent/002-function-calling.md
再理解 LangGraph 如何组织有状态、多步骤流程和动态分支：07-langchain-langgraph/003-langgraph-overview.md
最后理解日志、成本、评估和安全如何让 Agent 可运行：09-ai-agent-engineering/001-ai-engineering-overview.md

Agent 和 Chatbot

Agent 和 Workflow

Agent 和 RAG

Agent 和 Tool Calling

On this page