1 分•作者: FL4TLiN3•4 天前
在为客户构建智能体应用两年后,我 burnout 了。我成了唯一的故障点,没有任何备用方案。需求收集、提示工程、应用开发、沙盒测试,所有事情都由团队里最资深的开发者负责,而这个人总是我的化身。
根本原因不在于团队或客户,而在于我们设计智能体的方式:除非你采用一个众所周知的智能体框架,否则没有明确的边界。
我开始这个项目是因为,为开发者们绘制他们已经熟悉的清晰边界,我觉得是正确的做法。
为了进行“自举测试”,我定义了一个游戏开发专家,拥有一个简单的拓扑结构(计划 → 构建 → 验证 + 协调器),并在 5 个模型上运行了相同的任务。
以下是结果:<a href="https://github.com/perstack-ai/demo-catalog" rel="nofollow">https://github.com/perstack-ai/demo-catalog</a>
查询很简单:“创建一个类似《巫术》的地下城探险游戏...”
在评估中,我只关注了三件事:(1)专家是否遵守我的指示?(2)结果是否经过验证并且实际有效?(3)API 成本是否可承受?
为什么是这三点?因为即使框架架构很稳固,也需要从指令遵循、最低质量保证和成本效益这几个方面来评估智能体。这是我从与客户合作中得到的经验。
我注意到:
* 5 个模型中有 3 个遵循了完整的计划 → 构建 → 验证流程,并产生了经过验证的有效输出,无需特定于提供商的调整。拓扑结构定义一次,即可原样运行。
* Claude(4.6 Opus + 4.6 Sonnet)产生了最丰富的输出,并且完美地遵循了指令。它还实现了所有提供商中最高的缓存命中率(96%),但定价仍然使总成本达到了最接近竞争对手的 8 倍。
* Kimi K2.5 以 3.43 美元的价格产生了出色的输出,并且最忠实于委托任务。在这次测试中,它在指令遵循和质量方面都优于 GPT 和 Gemini。
* Gemini(3.1 Pro + 3.0 Flash)遵循了完整的流程并制作了一个经过验证的游戏。但它的输出比 GPT 的更糟糕,几乎无法玩。
* GPT(5.4 + 5-mini)是最快和最便宜的,但完全跳过了验证步骤。它调用了三次构建,而不是遵循流程。
* MiniMax M2.5 完全忽略了指令,制作了一个基于浏览器的 HTML 游戏。指令遵循是一个挑战,但最新版本 M2.7 最近宣布了改进,所以我很期待。
这只是演示目录中的一个任务。但每次运行的完整执行日志都在仓库中,因此您可以确切地看到每个模型做了什么,并自己重现它。