做 Agent Demo 和做可交付项目有什么区别
Demo 能跑通不等于项目能交付。两者在鲁棒性、文档、成本控制、可维护性上有本质差距——搞清楚这个差距,才能定对价格、做对预期。
一个常见的误解
很多刚入场的 AI 服务商做完一个 Demo 之后,觉得“交付也就这样”,于是直接拿着 Demo 代码去谈项目,甚至报出相同的工期。
等真正进入交付阶段,才发现水坑一个接一个:客户数据格式不对、边界案例没覆盖、接口偶尔超时、成本跑超、客户想要改功能……
本文系统梳理 Demo 和可交付项目之间的差距,帮助你在报价和排期时做出准确判断。
差距一:输入数据的规范程度
Demo 用的是你自己准备的“理想数据”——格式整齐、内容完整、没有脏数据。可交付项目用的是客户的真实数据——字段缺失、编码不一致、历史遗留格式……
在真实项目中,数据清洗和格式适配往往占据 20%–30% 的开发时间,而 Demo 阶段完全没有这部分工作量。
- Demo:自己构造 20 条干净的测试数据
- 交付:接入客户 ERP / CRM,处理编码、缺字段、重复记录、权限限制
- 交付:数据更新频率如何同步?实时 / 定时 / 手动触发?
差距二:边界案例与鲁棒性
Demo 只展示“正常路径”。可交付项目必须处理所有边界情况:用户输入超长文本、问一个系统完全没有信息的问题、工具调用失败、模型返回格式异常……
鲁棒性是 Demo 和交付之间最难跨越的差距,因为每个新的边界案例都可能暴露一个新的 bug。
- 工具调用失败时的 fallback 逻辑
- 模型返回结构不符预期时的解析容错
- 用户注入攻击(prompt injection)的防护
- 极端长文本导致 token 超限的截断策略
- 并发请求下的状态隔离
差距三:成本与延迟控制
Demo 阶段不在乎成本。一个 5 分钟的演示,多花几块钱 API 费用无所谓。但可交付项目要跑 7×24 小时,成本必须可预测、可控制。
延迟也是一样:Demo 里 3 秒响应看起来还好,但在真实客服场景下,用户等超过 2 秒就会认为系统卡住了。
- Token 用量:System Prompt 长度优化、上下文窗口管理
- 模型选型:是否所有步骤都需要最强模型?简单分类可以用更便宜的模型
- 缓存策略:重复性高的工具调用结果是否可以缓存
- 流式输出:让用户感知到响应在进行中,降低感知延迟
- 成本监控:每次调用记录 token 用量,及时发现异常
差距四:文档与可维护性
Demo 代码不需要文档,因为只有你自己看。但交付物需要让客户的技术团队能够接手维护——这意味着部署文档、Prompt 修改指南、常见问题排查手册都是交付物的一部分。
如果你交付的代码客户看不懂、改不动,客户的下一句话就会是“以后的维护还要找你”——这听起来是好事,但如果你没有做好这个预期管理,会变成无休止的免费售后。
差距五:验收标准
Demo 没有验收标准,因为没有人要签字。可交付项目必须在开始前就明确验收标准——准确率目标是多少、测试用例覆盖哪些场景、谁来验收、怎么算通过。
没有验收标准,项目永远不会“结束”。
- 准确率:在 N 条标注测试用例上,正确回答率 ≥ X%
- 响应时间:P95 响应时间 ≤ Y 秒
- 人工转接准确率:需要转接的场景,转接触发率 ≥ Z%
- 幻觉控制:在“系统无答案”场景中,拒绝作答率 ≥ W%
如何用评测包跨越这个差距
上线评测交付包(Agent Launch Eval Pack)提供了一套预构建的测试用例集和评测流程,覆盖上述四个差距中最难自己设计的部分:边界案例、幻觉测试、注入测试、成本基准测量。
用评测包的好处不是替你做决定,而是让你在报价时能说出一句话:'我们会用 X 条测试用例验证上线质量,通过后再付尾款。' 这句话本身就是专业度的信号。
查看全部交付包,快速启动你的 Agent 项目