D
AI
学习工作台
Agent 开发2026-03-171 分钟阅读

Agent 评估方法论

掌握 Agent 评估指标、Benchmark、LangSmith 与测试策略

Agent评估LangSmithBenchmark记笔记标记疑惑

评估维度概览

Agent 的评估比传统分类/生成任务更复杂,需从多个维度考量:

任务完成度(Task Success)

  • 端到端:给定任务,Agent 是否达成预期目标?
  • 子步骤:多步任务中,各步骤是否正确执行?
  • 度量:人工打分、与标准答案对比、LLM-as-Judge 评分

工具使用(Tool Use)

  • 正确性:是否调用了正确的工具、传入了正确的参数?
  • 必要性:是否避免了多余或错误的工具调用?
  • 效率:调用次数、轮次是否合理?

安全与合规(Safety & Compliance)

  • 越权:是否执行了不应执行的操作?
  • 幻觉:是否编造了不存在的信息?
  • 敏感信息:是否泄露了不应泄露的内容?

效率与成本(Efficiency)

  • 延迟:端到端响应时间
  • Token 消耗:总 token 数、成本
  • 调用次数:LLM 调用、工具调用次数

Benchmark 与数据集

  • SWE-bench:代码修复任务,评估 Agent 的编程能力
  • WebArena:网页操作任务,评估多模态与工具使用
  • AgentBench:多环境综合评估
  • 自定义:根据业务构建领域特定的测试集

LangSmith 实战

LangSmith 是 LangChain 的观测与评估平台:

  • Trace:自动记录每次运行的节点、输入输出、耗时、错误
  • Datasets:管理测试用例,支持输入-期望输出、人工反馈
  • Evaluators:配置自定义评估函数,如正确性、相关性、毒性检测
  • CI 集成:在 GitHub Actions 等中运行评估,阻断不合格的 PR
  • 通过 LANGCHAIN_TRACING_V2=trueLANGCHAIN_API_KEY 即可接入。

    测试策略

  • 单元测试:对工具、解析逻辑等确定性部分做单元测试
  • 集成测试:端到端跑典型场景,检查输出格式与关键内容
  • 回归测试:黄金数据集 + 固定 seed,监控指标变化
  • 人工抽查:定期对生产日志抽样,评估真实用户体验
  • A/B 测试:新模型或新 Prompt 上线前,与基线对比
  • 小结

    Agent 评估需要结合任务完成度、工具使用、安全与效率等多维度,借助 LangSmith 等工具实现可观测与自动化评估。建立黄金数据集和回归测试,是保证 Agent 持续迭代不退化的重要基础。

    知识卡片

    问题

    Agent 评估与传统 ML 评估有何不同?

    点击翻转查看答案

    答案

    Agent 输出非确定性、多模态(文本+工具调用+多轮),需评估任务完成度、工具使用正确性、安全性等。常结合人工标注、规则校验和 LLM-as-Judge。

    问题

    LangSmith 在 Agent 评估中能做什么?

    点击翻转查看答案

    答案

    提供 trace 可视化、数据集管理、自动化评估运行。可记录每次调用的节点、耗时、token 消耗,并配置自定义 evaluator(如正确性、一致性)进行批量评测。

    问题

    如何设计 Agent 的回归测试?

    点击翻转查看答案

    答案

    建立黄金数据集(输入-期望输出对),用确定性或抽样固定 seed 运行 Agent,对比输出与期望;对工具调用序列做断言;结合 CI 在每次提交后自动跑评估,防止退化。