成本优化
Token 成本占 Agent 运行成本大头。优化方向:
- 上下文压缩:只保留最近 N 轮对话、关键工具输出摘要,丢弃冗余历史。可用摘要模型或规则压缩。
- 模型分层:简单任务用小模型(如 GPT-4o-mini),复杂推理用大模型。路由逻辑根据任务类型选择。
- 缓存:相同或相似请求直接返回缓存;工具结果、 embedding 可缓存。Redis + 语义相似度判断可实现语义缓存。
延迟优化
串行变并行:多个独立工具调用可并行执行,减少总等待时间。编排层识别无依赖的子任务并发调度。
流式输出:LLM 响应采用流式,用户更快看到首字。工具调用可在生成完参数后立即触发,不必等全文结束。
模型与基础设施:选择低延迟模型或 API;部署靠近用户的区域;使用更快的推理引擎(如 vLLM、SGLang)。
提前终止:若中间步骤已足够回答用户,可提前结束,避免无效的后续调用。
混合策略
Speculative Decoding:小模型快速生成,大模型验证。在 Agent 中可用于工具选择、参数生成等,减少大模型调用。
批处理:非实时场景可将多个请求合并为 batch,提高 GPU 利用率,降低单次成本。
本地小模型:对延迟敏感、数据敏感场景,可用本地小模型处理简单分支,仅复杂步骤调用云端大模型。