返回交付包
交付包 · v1.0.0
Agent 上线评测包
Agent Launch Evaluation Pack
面向 Agent 开发者与服务商的上线前评测体系:100–300 条标准测试用例,覆盖幻觉、工具调用错误、多轮偏移、Prompt injection、成本与延迟,含报告与风险分级模板。
适合谁
Agent 开发者AI 服务商企业技术团队
技术栈
评测脚本(Python/TS)promptfoo / 自研 runnerMCPCSV/Notion 报告
- 人工确认
- 可全自动
- 授权
- commercial-use-with-limits
- 更新于
- 2026-05-21
解决的痛点
- 能做 Demo,但不知道能否上线
- 上线前需要系统测试幻觉/工具调用/多轮偏移/权限误用/注入/成本延迟
- 缺少可复用的评测报告与风险分级标准
你提供(输入)
- · 待测 Agent 的接口或运行方式
- · 业务场景描述
- · (可选)既有对话日志
你得到(产出)
- · 100–300 条标准测试用例
- · 工具调用 / RAG 幻觉 / 多轮稳定性测试模板
- · Prompt injection 测试样例
- · 成本与延迟统计表
- · 上线前检查清单
- · 测试报告模板 + 风险分级模板
交付包内容
统一目录结构,保证每个交付包的一致性与可交付性。
/source-code可运行代码可直接运行并二次开发的核心实现
/docs部署与开发文档部署、配置与二次开发说明
/promptsPrompt 与系统规则经过打磨的提示词与系统约束
/workflowsAgent 工作流工作流编排与节点配置
/evals测试与评测测试用例与上线评测标准
/templates交付模板需求访谈表 / 报价单 / 验收单
/demo演示数据与脚本演示数据集与现场演示脚本
/mcpMCP 接口示例MCP 工具调用示例
/license授权协议商用授权与使用范围说明
product.jsonAgent 可读商品说明供 Agent 检索/比较的结构化描述
前置要求
- 能运行评测脚本
- 了解待测 Agent 的调用方式
退款政策:7 天内未访问且未下载可全额退款。
常见问题
- 能测我现有的 Agent 吗?
- 可以,评测以接口/运行方式为输入,与具体框架解耦。
- 测试用例能改吗?
- 全部用例与模板可改,鼓励按你的业务场景扩展。