AI代码能力的天花板，比你想象的低得多

你可能听过各种AI编程有多厉害的叙事——Claude Code刷榜SWE-bench、GPT-5.5 Coding拿下93%准确率、Gemini 2.5 Ultra击败专业程序员……

但今天看到一组数据，让我愣了好几秒。

所有主流大模型，在ProgramBench上的得分，全部是 0%。

一个字面意义上的 "零"。

1. 0%是什么概念？

先科普一下。ProgramBench 是一个最近刚发布的代码生成基准测试，但它的测试方式跟以往那些妖艳贱货完全不一样。

传统的基准测试，像 HumanEval、SWE-bench 这些，考的是"局部手术"能力——给你一个有bug的函数，让AI修一下；给你一个算法题，让AI写个解法。这类任务，AI确实已经很能打了。

但 ProgramBench 上来就是一道大题：

无网络条件下，完整复现 ffmpeg、SQLite、ripgrep 这些复杂软件系统。

不是修一个函数，是从零开始，把一整个有几十万行代码、几十个模块、复杂依赖关系的系统给我重建出来。

考的不是"会不会写代码"，考的是"能不能独立建模一个完整的软件系统"。

结果，所有模型，齐刷刷，0%。

传统基准 vs ProgramBench 上传统基准 vs ProgramBench 下

2. 为什么传统基准一直在"注水"？

你可能会问：那之前的那些高分是怎么来的？

说实话，看到 ProgramBench 这个结果，我第一反应是去翻之前那些基准测试到底在测什么。

然后我意识到一个问题——我们一直在用"局部战斗"的数据，论证"全局作战"的能力。

就像你不能因为一个人能精准地扣好一颗纽扣，就判断他能独立完成一套西装的定制。

HumanEval 考的是单函数实现，SWE-bench 考的是补丁级别的修复，这些任务有一个共同特点：有上下文、有边界、有参照。

你不是在造一座房子，你是在给一座已经建好的房子换个灯泡。

这当然有价值。但这不是"系统级软件工程能力"。

ProgramBench 第一次把测试拉到了这个维度——架构设计、依赖管理、编译构建、多模块协同。这才是真正考验AI"从零构建"能力的地方。

然后大家发现：离及格还差得远。

换灯泡 vs 建房子

3. 0%背后的真实差距

说个我的理解，可能不太准确，但我觉得能说明问题。

AI编程现在的能力，更像是一个超级搜索引擎 + 代码补全器。你给它一个清晰的上下文，它能帮你把缺失的部分补上，而且补得相当准确。

但软件工程真正难的部分是什么？

是定义问题本身。

一个生产级的系统，不是从"写代码"开始的，是从"理解要解决什么问题"开始的。要跟业务方反复对齐，要理解上下游的约束，要权衡技术债和迭代速度，要考虑可维护性……

这些东西，目前的AI基本上是无能为力的。不是技术问题，是信息不对称问题——AI没有上帝视角，它只能看到你喂给它的上下文。

所以回到 ProgramBench 的 0%——

它测的不是AI会不会写代码，是AI能不能在没有"参考答案"的情况下，独立完成一个复杂系统的架构和实现。

这件事，目前没有人做到。

AI的边界：超级搜索 vs 定义问题

4. 对企业级Agent开发意味着什么？

说这么多，你可能要问：这跟我做企业级Agent开发有什么关系？

关系大了。

我做了不少企业级项目，深刻体会到一件事——客户买的从来不是"能跑"，是"能交代"。

什么意思？

你交付一个Agent给企业，人家要的不是你证明"AI能干活"，人家要的是能写进汇报材料、能跟领导汇报、能通过审计的东西。

这背后需要的，是系统设计文档、架构图、接口规范、异常处理流程、监控告警配置……这些"工程化"的部分。

而这些东西，目前AI能帮你写的，都是模板化的。真要结合业务场景做定制，还是得人来。

所以我现在的做法是：让AI做执行层的东西，把决策层留给人。

具体来说：

标准化流程：AI全链路搞定
非标准化场景：人定义框架，AI填充细节
系统集成：人来做架构设计，AI写具体实现

这样既享受了AI的效率，又保住了交付质量。

企业级Agent交付：人机协作分层

5. 写在最后

ProgramBench 的 0%，不是一个黑点，反而是一个清醒剂。

它告诉我们：AI编程被吹过头的那部分，是局部任务能力，不是系统级工程能力。

对于想靠AI编程创业、做产品的人来说，这反而是个好消息——因为门槛没有想象中那么低，你积累的系统设计能力、领域知识、业务理解，依然是有价值的护城河。

AI会替代的是"重复劳动"，不是"复杂决策"。

搞清楚这个边界，比盲目追热点重要得多。

相关参考：ProgramBench 基准测试发布于 2026年5月7日