D
AI
学习工作台
Agent 落地2026-03-171 分钟阅读

Agent 成本与延迟优化

降低 LLM 调用成本与延迟的实践方法

Agent成本优化延迟优化LLM记笔记标记疑惑

成本优化

Token 成本占 Agent 运行成本大头。优化方向:

  • 上下文压缩:只保留最近 N 轮对话、关键工具输出摘要,丢弃冗余历史。可用摘要模型或规则压缩。
  • 模型分层:简单任务用小模型(如 GPT-4o-mini),复杂推理用大模型。路由逻辑根据任务类型选择。
  • 缓存:相同或相似请求直接返回缓存;工具结果、 embedding 可缓存。Redis + 语义相似度判断可实现语义缓存。
Prompt 工程:精简 system prompt,避免重复说明;用结构化输出减少无效 token;few-shot 示例精选高质量样本。

延迟优化

串行变并行:多个独立工具调用可并行执行,减少总等待时间。编排层识别无依赖的子任务并发调度。

流式输出:LLM 响应采用流式,用户更快看到首字。工具调用可在生成完参数后立即触发,不必等全文结束。

模型与基础设施:选择低延迟模型或 API;部署靠近用户的区域;使用更快的推理引擎(如 vLLM、SGLang)。

提前终止:若中间步骤已足够回答用户,可提前结束,避免无效的后续调用。

混合策略

Speculative Decoding:小模型快速生成,大模型验证。在 Agent 中可用于工具选择、参数生成等,减少大模型调用。

批处理:非实时场景可将多个请求合并为 batch,提高 GPU 利用率,降低单次成本。

本地小模型:对延迟敏感、数据敏感场景,可用本地小模型处理简单分支,仅复杂步骤调用云端大模型。

知识卡片

问题

减少 Agent 成本最有效的三种手段是什么?

点击翻转查看答案

答案

1) 压缩上下文,只保留必要历史;2) 使用小模型或混合模型策略;3) 缓存重复请求与中间结果。

问题

为什么 Agent 的端到端延迟往往很高?

点击翻转查看答案

答案

多轮 LLM 调用串行执行、每次调用需等待完整生成、工具调用网络延迟叠加。单次请求可能触发 5–10 次 LLM 调用。

问题

什么是「投机解码」?如何用于 Agent?

点击翻转查看答案

答案

用小模型快速生成多个候选,大模型并行验证。在 Agent 中可用于工具选择、参数生成等,减少大模型调用次数。