AgentPack Store
返回交付包
交付包 · v1.0.0

Agent 上线评测包

Agent Launch Evaluation Pack

面向 Agent 开发者与服务商的上线前评测体系:100–300 条标准测试用例,覆盖幻觉、工具调用错误、多轮偏移、Prompt injection、成本与延迟,含报告与风险分级模板。

适合谁

Agent 开发者AI 服务商企业技术团队

技术栈

评测脚本(Python/TS)promptfoo / 自研 runnerMCPCSV/Notion 报告
人工确认
可全自动
授权
commercial-use-with-limits
更新于
2026-05-21

解决的痛点

  • 能做 Demo,但不知道能否上线
  • 上线前需要系统测试幻觉/工具调用/多轮偏移/权限误用/注入/成本延迟
  • 缺少可复用的评测报告与风险分级标准

你提供(输入)

  • · 待测 Agent 的接口或运行方式
  • · 业务场景描述
  • · (可选)既有对话日志

你得到(产出)

  • · 100–300 条标准测试用例
  • · 工具调用 / RAG 幻觉 / 多轮稳定性测试模板
  • · Prompt injection 测试样例
  • · 成本与延迟统计表
  • · 上线前检查清单
  • · 测试报告模板 + 风险分级模板

定价

三档版本满足从试用到客户交付的不同需求。

入门版

试用与学习
¥299

想要测试样例与清单的人

  • 核心测试用例样例
  • 上线前检查清单
  • 测试报告模板
  • 简单使用说明
或咨询
最受欢迎

标准版

可落地评测
¥999

Agent 开发者与服务商

  • 100–300 条标准测试用例
  • 工具调用/幻觉/多轮/注入测试模板
  • 成本与延迟统计表
  • 风险分级模板
  • 基础商用授权
或咨询

商用交付版

面向客户交付
¥1,999

需要向客户出具上线评测报告的团队

  • 标准版全部内容
  • 可交付测试报告模板(完整)
  • 商用授权
  • 一定期限内版本更新
  • 可选答疑支持
或咨询

交付包内容

统一目录结构,保证每个交付包的一致性与可交付性。

/source-code可运行代码

可直接运行并二次开发的核心实现

/docs部署与开发文档

部署、配置与二次开发说明

/promptsPrompt 与系统规则

经过打磨的提示词与系统约束

/workflowsAgent 工作流

工作流编排与节点配置

/evals测试与评测

测试用例与上线评测标准

/templates交付模板

需求访谈表 / 报价单 / 验收单

/demo演示数据与脚本

演示数据集与现场演示脚本

/mcpMCP 接口示例

MCP 工具调用示例

/license授权协议

商用授权与使用范围说明

product.jsonAgent 可读商品说明

供 Agent 检索/比较的结构化描述

前置要求

  • 能运行评测脚本
  • 了解待测 Agent 的调用方式

退款政策:7 天内未访问且未下载可全额退款

常见问题

能测我现有的 Agent 吗?
可以,评测以接口/运行方式为输入,与具体框架解耦。
测试用例能改吗?
全部用例与模板可改,鼓励按你的业务场景扩展。