AI Learning Studio — 成为 AI 领域专家

评估维度概览

Agent 的评估比传统分类/生成任务更复杂，需从多个维度考量：

LangSmith 是 LangChain 的观测与评估平台：

Trace：自动记录每次运行的节点、输入输出、耗时、错误

Datasets：管理测试用例，支持输入-期望输出、人工反馈

Evaluators：配置自定义评估函数，如正确性、相关性、毒性检测

CI 集成：在 GitHub Actions 等中运行评估，阻断不合格的 PR

通过 LANGCHAIN_TRACING_V2=true 和 LANGCHAIN_API_KEY 即可接入。

单元测试：对工具、解析逻辑等确定性部分做单元测试

集成测试：端到端跑典型场景，检查输出格式与关键内容

回归测试：黄金数据集 + 固定 seed，监控指标变化

人工抽查：定期对生产日志抽样，评估真实用户体验

A/B 测试：新模型或新 Prompt 上线前，与基线对比

Agent 评估需要结合任务完成度、工具使用、安全与效率等多维度，借助 LangSmith 等工具实现可观测与自动化评估。建立黄金数据集和回归测试，是保证 Agent 持续迭代不退化的重要基础。