交付包 · v1.0.0

Agent 上线评测包

Name: Agent 上线评测包
Brand: AgentPack Store

Agent Launch Evaluation Pack

面向 Agent 开发者与服务商的上线前评测体系：100–300 条标准测试用例,覆盖幻觉、工具调用错误、多轮偏移、Prompt injection、成本与延迟,含报告与风险分级模板。

立即购买 product.json

适合谁

Agent 开发者AI 服务商企业技术团队

技术栈

评测脚本(Python/TS)promptfoo / 自研 runnerMCPCSV/Notion 报告

人工确认: 可全自动
授权: commercial-use-with-limits
更新于: 2026-05-21

解决的痛点

能做 Demo,但不知道能否上线
上线前需要系统测试幻觉/工具调用/多轮偏移/权限误用/注入/成本延迟
缺少可复用的评测报告与风险分级标准

你提供（输入）

· 待测 Agent 的接口或运行方式
· 业务场景描述
· (可选)既有对话日志

你得到（产出）

· 100–300 条标准测试用例
· 工具调用 / RAG 幻觉 / 多轮稳定性测试模板
· Prompt injection 测试样例
· 成本与延迟统计表
· 上线前检查清单
· 测试报告模板 + 风险分级模板

定价

三档版本满足从试用到客户交付的不同需求。

入门版

试用与学习

¥299

想要测试样例与清单的人

核心测试用例样例
上线前检查清单
测试报告模板
简单使用说明

或咨询

最受欢迎

标准版

可落地评测

¥999

Agent 开发者与服务商

100–300 条标准测试用例
工具调用/幻觉/多轮/注入测试模板
成本与延迟统计表
风险分级模板
基础商用授权

或咨询

商用交付版

面向客户交付

¥1,999

需要向客户出具上线评测报告的团队

标准版全部内容
可交付测试报告模板(完整)
商用授权
一定期限内版本更新
可选答疑支持

或咨询

交付包内容

统一目录结构,保证每个交付包的一致性与可交付性。

/source-code可运行代码

可直接运行并二次开发的核心实现

/docs部署与开发文档

部署、配置与二次开发说明

/promptsPrompt 与系统规则

经过打磨的提示词与系统约束

/workflowsAgent 工作流

工作流编排与节点配置

/evals测试与评测

测试用例与上线评测标准

/templates交付模板

需求访谈表 / 报价单 / 验收单

/demo演示数据与脚本

演示数据集与现场演示脚本

/mcpMCP 接口示例

MCP 工具调用示例

/license授权协议

商用授权与使用范围说明

product.jsonAgent 可读商品说明

供 Agent 检索/比较的结构化描述

前置要求

能运行评测脚本
了解待测 Agent 的调用方式

退款政策：7 天内未访问且未下载可全额退款。

常见问题

能测我现有的 Agent 吗？: 可以,评测以接口/运行方式为输入,与具体框架解耦。
测试用例能改吗？: 全部用例与模板可改,鼓励按你的业务场景扩展。