Way To Agent
导学与路线

什么是 AI Agent

解释 AI Agent 的定义、组成和边界,为后续 RAG、工具调用、记忆、规划和编排知识建立主线。

导学与路线beginnerAI AgentAgent基础Tool CallingRAG

什么是 AI Agent

AI Agent 是一种以大模型为推理核心的智能体应用系统。它不只是执行预先写死的流程,而是在约束范围内分析目标、读取上下文、选择工具、观察结果,并决定下一步如何推进。

如果一个系统只能回答“RAG 是什么”,它更像 Chatbot。如果它能判断这个问题需要查知识库,调用检索工具,读取引用内容,组织答案,并记录这次回答用了哪些来源和多少成本,它就开始接近 Agent。

但 Agent 也不等于 AI Workflow。Workflow 的强项是把稳定步骤固定下来:收到用户问题后,先检索知识库,再把结果交给模型总结,最后返回答案。Agent 的关键是模型参与决策:当前信息够不够、要不要先追问、该不该检索、该调用哪个工具、工具结果是否可信、下一步继续还是停止。

所以,Agent 不是“更会聊天的模型”,也不是“给模型加几个函数”。它的关键变化是:模型不再只负责生成文本,而是参与任务执行过程。

可以用一句话理解:

AI Agent = 模型推理 + 外部知识 + 工具调用 + 状态管理 + 规划与动态决策 + 工程治理。

这不是公式,而是一个判断框架。看到一个系统宣称自己是 Agent,可以先问:它有没有目标?有没有外部知识?有没有工具?有没有状态?它的下一步是固定流程决定的,还是模型会根据上下文和反馈参与判断?有没有权限、日志、成本和失败处理?

AI Agent 架构总览

这张图强调的是 Agent 循环:模型不是只在最后生成答案,而是在理解目标、分析上下文、制定计划、观察结果和更新状态之间持续参与下一步判断。

拆开来看,Agent 至少包含几块能力:

模型推理:理解目标、分析上下文、生成下一步决策
外部知识:通过 RAG 或搜索获取模型不知道的信息
工具调用:连接 API、数据库、业务系统和外部服务
状态管理:记录当前步骤、历史结果、用户反馈和任务进展
规划与动态决策:根据目标、上下文和工具结果拆解任务、选择下一步
工程治理:处理权限、安全、成本、日志、评估和降级

这些能力缺一块,系统的形态就会变化。只有模型,没有工具,系统大多只能回答问题;只有工具,没有状态,系统很难完成多步骤任务;只有固定流程,没有规划与动态决策,更像 Workflow;只有动态决策,没有治理,系统很难进入真实业务。

Agent 通常不是一次调用完成,而是一个循环:

接收目标
  -> 理解上下文
  -> 判断下一步
  -> 调用工具或生成回答
  -> 观察结果
  -> 更新状态
  -> 继续推进或结束

这个循环看起来简单,真正落地时会立刻遇到边界问题:模型能调用哪些工具?工具参数如何校验?最多允许执行多少步?调用失败是否重试?用户是否需要确认高风险操作?中间状态保存在哪里?如何记录每一步成本和日志?

这些问题决定了 Agent 是一个演示 Demo,还是一个可以接入业务系统的工程能力。

理解 Agent,还要把它和几个相近概念分开。

Agent 和 Chatbot

Chatbot 主要围绕对话回复。Agent 更强调目标、行动和状态。一个 Chatbot 可以回答问题,一个 Agent 要能围绕目标决定下一步。

Agent 和 Workflow

Workflow 更像一张预先设计好的流程。它的优势是稳定、可预测、易审计,适合规则清楚的任务。Agent 更强调根据目标、上下文和反馈拆解任务、动态选择下一步,适合信息不完整、路径不固定、需要模型判断的任务。

真实系统里二者经常结合:稳定流程用 Workflow 固定下来,局部判断、生成、检索和工具选择交给 Agent。把所有事情都交给 Agent,风险会变高;把所有事情都固定成 Workflow,系统又会失去处理开放任务的能力。

Agent 和 RAG

RAG 解决的是“模型回答依据从哪里来”。Agent 解决的是“系统如何围绕目标持续推进任务”。RAG 可以是 Agent 的一个工具,也可以是 Agent 的知识来源;但只有 RAG,不等于拥有 Agent。

Agent 和 Tool Calling

Tool Calling 让模型能够选择工具并生成结构化参数。它是 Agent 的基础能力之一,但不是 Agent 的全部。Agent 还要处理工具执行后的状态更新、失败恢复、流程分支、权限控制和最终结果组织。

Agent 的能力越强,风险也越明显。

它可能调用错误工具,生成错误参数,在循环中反复尝试,引用不可靠内容,泄露敏感信息,或者产生不可控成本。因此,工程治理不是附加项,而是 Agent 能否落地的前提。

当你设计或评估一个可靠 Agent 时,至少要把这些问题落实到系统里:

哪些工具允许被调用?
工具参数如何校验?
状态保存在哪里?
最多执行多少步?
失败后如何恢复?
成本和额度如何限制?
每一步如何记录日志?
结果质量如何评估?

这也是 Way To Agent 后续章节要展开的内容。

如果你刚开始理解 Agent,可以按下面这条线继续读:

先理解 Agent 的基本形态:06-agent/001-what-is-agent.md
再理解模型调用、上下文和结构化输出:02-llm-basic/001-llm-basic-concepts.md
再理解 Prompt 如何约束任务:03-prompt-engineering/001-what-is-prompt-engineering.md
再理解 RAG 如何提供外部知识:04-rag/001-what-is-rag.md
再理解 Tool Calling 如何连接业务能力:06-agent/002-function-calling.md
再理解 LangGraph 如何组织有状态、多步骤流程和动态分支:07-langchain-langgraph/003-langgraph-overview.md
最后理解日志、成本、评估和安全如何让 Agent 可运行:09-ai-agent-engineering/001-ai-engineering-overview.md