AI Agent 应用工程化与可观测性
Token 统计与成本控制
介绍 Token 成本来源、每日额度控制、RAG 上下文压缩和模型调用降级策略。
AI Agent 应用工程化与可观测性intermediateToken成本控制用户额度限流
Token 统计与成本控制
AI 功能最容易被低估的风险之一,就是成本会在“看起来每次都不贵”的错觉里慢慢失控。一次多带一点上下文、一次多重试几次、一次多走一层 Rerank,看起来都不大,乘上真实流量以后就完全不是小数目了。
所以成本控制不是财务善后,而是系统设计的一部分。
成本通常从哪里冒出来
最常见的来源大概有这些:
- 模型输入输出 token
- Embedding
- Rerank
- 重试和超时重放
- 过长上下文
很多团队只盯主模型价格,结果把真正的成本增长点漏掉了。
哪些手段最常用
实际项目里,最有效的控制手段通常不是单点限流,而是组合拳:
- 问题分类后分配不同模型。
- 控制召回 TopK 和上下文长度。
- 对高成本能力设额度或登录门槛。
- 能缓存的结果尽量缓存。
- 明确什么时候该降级为更便宜方案。
本质上是在拿系统设计换成本可控。
为什么成本裁决必须在后端
前端可以展示剩余额度和估算费用,但真正的裁决必须在后端。原因很简单:只有后端能可信地看到用户身份、真实调用结果和最终结算字段。
如果让前端决定是否还能继续调,后面迟早会在绕过限制和账实不符上出问题。
一句话先记住
成本控制不是把功能关小,而是让每一分钱都对应着明确价值和明确边界。
继续阅读
09-ai-agent-engineering/001-ai-engineering-overview.md09-ai-agent-engineering/002-ai-call-log.md04-rag/004-chunking-strategy.md