评估维度概览
Agent 的评估比传统分类/生成任务更复杂,需从多个维度考量:
任务完成度(Task Success)
- 端到端:给定任务,Agent 是否达成预期目标?
- 子步骤:多步任务中,各步骤是否正确执行?
- 度量:人工打分、与标准答案对比、LLM-as-Judge 评分
工具使用(Tool Use)
- 正确性:是否调用了正确的工具、传入了正确的参数?
- 必要性:是否避免了多余或错误的工具调用?
- 效率:调用次数、轮次是否合理?
安全与合规(Safety & Compliance)
- 越权:是否执行了不应执行的操作?
- 幻觉:是否编造了不存在的信息?
- 敏感信息:是否泄露了不应泄露的内容?
效率与成本(Efficiency)
- 延迟:端到端响应时间
- Token 消耗:总 token 数、成本
- 调用次数:LLM 调用、工具调用次数
Benchmark 与数据集
- SWE-bench:代码修复任务,评估 Agent 的编程能力
- WebArena:网页操作任务,评估多模态与工具使用
- AgentBench:多环境综合评估
- 自定义:根据业务构建领域特定的测试集
LangSmith 实战
LangSmith 是 LangChain 的观测与评估平台:
通过 LANGCHAIN_TRACING_V2=true 和 LANGCHAIN_API_KEY 即可接入。
测试策略
小结
Agent 评估需要结合任务完成度、工具使用、安全与效率等多维度,借助 LangSmith 等工具实现可观测与自动化评估。建立黄金数据集和回归测试,是保证 Agent 持续迭代不退化的重要基础。