AI修Bug烧钱真相:成本是对话的千倍
当 Agent 修 Bug 时,它到底在烧什么?
你让 AI Agent 修一个代码 Bug,它打开项目,读了二十个文件,改了改,跑测试,没过,再改,再跑……十几轮后,Bug 还在,但你的 API 账单已经“红温”。
这不是段子,而是斯坦福、MIT、密歇根大学等联合研究团队在 2026 年 4 月发布的一篇论文中揭示的现实:AI Agent 在自主编码任务中,单次未修复 Bug 的调用成本可达数十至一百多美元,Token 消耗动辄百万级。这篇论文首次系统性地拆解了 Agent 的“消费黑箱”——钱花在哪?值不值?能不能控?答案令人震惊。
烧钱速度:是对话的 1000 倍
很多人以为,让 AI 写代码和让 AI 聊代码,成本应该差不多。但论文数据显示:Agentic 编码任务的 Token 消耗是普通代码问答的约 1000 倍,差了整整三个数量级。
问题不在“写”,而在“读”。Agent 每轮操作都要把整个项目上下文、历史记录、报错信息、文件内容全部喂给模型。随着轮次增加,上下文越来越长,而 API 是按 Token 计费的——你喂得越多,付得越多。
这就像请修理工,每次拧螺丝前都要你从头念一遍整栋楼的图纸。念图纸的钱,远比拧螺丝贵得多。论文一针见血地指出:驱动 Agent 成本的,是输入 Token 的指数级增长,而非输出 Token。
成本波动:同一任务,花费能差一倍
更令人头疼的是随机性。研究者在同一任务上让同一个 Agent 运行 4 次,结果最贵的一次比最便宜的多烧了 700 万个 Token;跨模型对比时,最高与最低消耗甚至相差 30 倍。
这意味着:选对模型,成本可控;选错模型,直接“财务失控”。更扎心的是——花得多,不代表做得好。
论文发现一个“倒 U 型”曲线:中等成本时准确率最高,而高成本运行中,准确率反而下降。原因在于:约 50% 的文件查看和修改操作是重复的。Agent 在反复读同一个文件、改同一行代码,陷入“自我循环”,像在房间里转圈,越转越晕。
钱没花在解决问题上,花在了“迷路”上。
模型能效比:天生“话多”还是“高效”?
在标准测试集 SWE-bench Verified(500 个真实 GitHub Issue)上,8 个前沿模型的 Agent 表现差异显著。换算成美元,高效模型每个任务可节省几十块,企业级应用一天跑几百个任务,差距就是真金白银。
有趣的是,Token 效率是模型的“固有性格”。研究者在所有模型都成功或都失败的任务中对比,发现模型排名几乎不变。这说明:有些模型天生“话多”,跟任务难度无关。
更令人深思的是:模型缺乏“止损意识”。面对无法解决的任务,理想 Agent 应尽早放弃,但现实是,失败任务上消耗的 Token 反而更多。它们不会“认输”,只会继续探索、重试、重读上下文,像一辆没有油表警示灯的汽车,一路开到抛锚。
难度错位:人类觉得难的,Agent 不一定贵
你可能会想:至少可以根据任务难度预估成本吧?论文找来人类专家对 500 个任务评分,再与 Agent 实际 Token 消耗对比,结果:两者仅弱相关。
人类觉得“逻辑复杂、算法难”的任务,Agent 可能轻松搞定;而人类觉得“小菜一碟”的任务,Agent 可能烧到怀疑人生。
因为人和 AI “看到”的难度根本不是一回事:
人类看的是:逻辑复杂度、算法设计、边界条件
而 Agent 看的是:上下文长度、文件数量、历史轮次、报错信息密度
一个需要精巧递归的任务,可能文件少、报错简单,Agent 几轮就搞定;而一个简单的配置错误,如果藏在几十个嵌套文件中,Agent 可能反复遍历,烧掉数百万 Token。
给 Agent 装上“油表”和“刹车”
这篇论文撕开了 Agent 的“糊涂账”,也指明了方向:
- 输入压缩:用摘要、索引、缓存减少上下文长度
- 成本监控:引入“油表”机制,实时显示 Token 消耗
- 智能止损:设置“刹车”规则,当重复操作或成本超阈值时主动终止
- 模型选型:根据任务类型选择“能效比”高的模型,而非一味追求最强
AI Agent 不是“无限预算的神”,而是需要精细管理的“数字员工”。未来,成本控制能力,将与任务完成能力同等重要。
毕竟,再聪明的 Agent,也不能靠烧钱来证明自己。
标签: AI Agent 大模型成本 代码生成 Token 效率 智能运维