AI Learning Studio — 成为 AI 领域专家

成本优化

Token 成本占 Agent 运行成本大头。优化方向：

Prompt 工程：精简 system prompt，避免重复说明；用结构化输出减少无效 token；few-shot 示例精选高质量样本。

串行变并行：多个独立工具调用可并行执行，减少总等待时间。编排层识别无依赖的子任务并发调度。

流式输出：LLM 响应采用流式，用户更快看到首字。工具调用可在生成完参数后立即触发，不必等全文结束。

模型与基础设施：选择低延迟模型或 API；部署靠近用户的区域；使用更快的推理引擎（如 vLLM、SGLang）。

提前终止：若中间步骤已足够回答用户，可提前结束，避免无效的后续调用。

Speculative Decoding：小模型快速生成，大模型验证。在 Agent 中可用于工具选择、参数生成等，减少大模型调用。

批处理：非实时场景可将多个请求合并为 batch，提高 GPU 利用率，降低单次成本。

本地小模型：对延迟敏感、数据敏感场景，可用本地小模型处理简单分支，仅复杂步骤调用云端大模型。