扩展自主工作
Published:
这并不是在预测遥远的未来。单个 Agent 的长程工作、少量 Agent 的并行协作、持久化的项目状态,以及人工审批机制,都已经在出现。真正还没想清楚的是:如何把这些能力组织成一套能扩大规模、长期运转,又不过度占用人类注意力的通用生产系统。
核心主张:真正需要扩展的不是 Agent 数量本身,而是在极少占用人类注意力的情况下,持续完成、验证并整合「可靠工作闭环」的能力。
为什么这个问题重要
Coding Agent 是当前最重要、也最容易外溢到其他领域的 Agent 形态之一。越来越多的知识工作和工程流程,最终都要落在软件上:理解需求、读写代码、操作数据、调用工具、搭建评测、自动化流程,并根据反馈持续迭代。能稳定完成这些工作的 Agent,不只提高软件生产效率,还能进入研究、产品、运营和复杂工程,并参与开发其他 Agent、工具和自动化系统。
即使最终目标在物理世界,Coding Agent 也可以通过开发更可靠的感知、规划、控制、仿真和机器人算法,间接扩大自动化能覆盖的范围。生物和医疗是更具体的例子:问题本身在物理世界,但大量工作仍依赖计算模型和软件管线;若能把 AlphaFold 这类模型的研发速度加快十倍、百倍,结构生物学、药物发现等方向都可能明显提速。它消不掉硬件、实验和现实约束,但已经能加快不少系统的设计、验证和迭代。科研类 Agent 可以看作其中更开放、不确定性更高的一类,并不是这套想法的边界。
因此,值得讨论的并不是「Agent 将来会不会多写点代码」,而是这些已经出现的能力,能否被组织成高效、可验证、可持续的工作流程。若这种组织方式真能扩展,单位时间产出出现数量级提升就不是空想;其影响也不会局限在软件、AI 或科研。
为什么现在值得讨论
人的数量、注意力和工作时长终究有限;Agent 的有效供给和能力,却在同时受益于四方面的进展:基础模型、Agent 运行框架与工具、推理和训练算力,以及执行基础设施。模型更强,能处理更复杂的任务;框架更好,同一模型就更稳、能跑更久;基础设施更成熟,更多任务可以并行,结果也回流得更快。
这个过程还在形成正反馈。开发 Agent 本身,大量就是写代码、设计评测、分析失败和优化系统;Coding Agent 可以直接参与改进模型训练、工具、框架、基础设施和下一代 Agent。循环一旦转起来,瓶颈就会从「单个 Agent 够不够聪明」,转向「我们会不会组织越来越多、越来越强的 Agent」。
这些已经不是纯概念。Fable 5 等近期系统显著拉长了单 Agent 的工作周期,数天无人值守已经开始进入可用范围;少量 Agent 并行、持久化状态、自动验证和人工审批也都出现了。还没解决的是:当 Agent 数量和时间一起放大时,怎样避免重复劳动、验证、交付整合、人工审批或状态污染重新成为瓶颈。
究竟该扩展什么
不宜把「Agent 数量」或「总 token 数」直接当作扩展目标。100 个 Agent 同时写代码、出方案或写报告,不等于 100 倍生产力。更有价值的基本单元,是一个完整、可验证、能被后续工作复用的闭环:
理解目标 → 分解与规划 → 执行 → 验证 → 交付并整合
一个常用的抽象,是把累计有效产出记为 Q(N, T, H, B):N 是并行 Agent 数,T 是运行时长,H 是人类注意力,B 是模型调用、算力、工具和执行资源。核心问题是:怎样让 Q 随 N 和 T 继续增长,同时让 H 尽量慢地增长——要扩展的不是「对话窗口」,而是单位时间里能完成、验证并整合多少个可靠工作闭环。
| 问题维度 | 核心问题 | 希望改善的趋势 |
|---|---|---|
| 人类边界 | 人只保留不可外包的目标、价值判断和高风险决策 | 人力投入不随 Agent 数量和时间近线性增长 |
| 横向扩展 | 更多 Agent 同时推进互补工作 | 加速比随 N 仍为正,而不是 3–4 个就饱和 |
| 时间扩展 | 系统连续运行后仍能产生新价值 | 长期产出率下降更慢,能稳定工作数天乃至更久 |
第一个问题:人类与 Agent 的工作边界
要继续抬高 Agent 系统的上限,人就得逐步退出日常执行的主路径。只要每个任务、每次合并、每次交付或每个结论都要人点头,人的处理能力就是硬上限。更可扩展的做法,是让人主要待在「定目标、管治理」这一层,只处理少量必须升级的异常。
「需要人」通常有两类原因。第一类是必须由人拍板的决策:工作目标、价值取舍、风险预算、不可逆的现实行动、是否调整成功标准,以及是否部署、发布或对外作出重要承诺。即便 Agent 技术上做得到,人可能仍要负最终责任。第二类是当前的能力差距,比如根因分析、关键验证设计、异常值是否值得追、证据冲突如何裁决。随着 Agent 变强,这条线也应持续后移。
因此,边界不必写死成「人定目标、Agent 执行、人逐项验收」。更可行的思路是按情况升级:任务明显超出已知分布、Agent 之间严重分歧、操作代价高或不可逆、关键结果无法验证时,再叫人;其余环节尽量让 Agent 自己闭环。哪些情况真的需要人,应该靠实证回答,而不是事先假定。
理想目标:Agent 数量扩大十倍、运行时间扩大十倍时,人类投入最好几乎保持不变。人管方向和规则,Agent 管执行。
第二个问题:效率如何随 Agent 数量增长
不少多 Agent 系统在少量 Agent 之后,边际收益就明显下滑。问题往往不是没有更多「人手」,而是没有更多独立、有价值的工作通道。相同模型、相同上下文、相同目标的 Agent 容易给出同质方案;与此同时,执行、验证和产物整合常常跟不上方案产出的速度。
值得重点探索的组织形式,是动态 Agent 池,而不是固定团队。长期保存的是工作状态——目标与任务图、假设与约束、证据、代码与产物谱系、未解矛盾和资源占用;Agent 则是临时计算单元:创建、领任务、在隔离环境里工作、提交结构化产出,任务结束即退出。
发现可并行任务 → 动态创建 Agent → 独立执行 → 验证与复现 → 整合并重新调度
若只扩「出方案」的 Agent,很快就会撞上新瓶颈。一套生产系统至少有规划、执行、验证、整合四个环节,吞吐量取决于最慢的一环:100 个 Agent 每小时提出 500 个改动,验证只能处理 10 个,多出来的规模只会制造积压、冲突和噪声。调度器需要按实时队列和瓶颈,动态增减探索、执行、验证、整合角色,并暂停、迁移或终止低价值分支。
- 发现并行性。 复杂工作很少一开始就是 100 张独立工单;系统得主动把模糊目标展开成动态任务图,并持续扩大可并行的空间。
- 避免冗余。 名义上的 N 不重要,重要的是能贡献独立方案、不同证据和互补技能的有效 Agent 数 N_eff。
- 稀疏协作。 100 个 Agent 不可能互读全部日志;协作应通过任务依赖、结构化产出和证据链完成,而不是全员群聊。
- 同步扩展验证与整合。 生成候选只是前半程;测试、复现、消冲突、合并分支和更新交付,需要同等规模的带宽。
- 学习组织方式。 系统应跨任务记录哪些角色组合、分工方式带来了真实进展,让调度本身越变越好。
我们关心的是:单位时间有效产出如何随 N 增长。「100 个 Agent 一天干完单 Agent 约 40 天的有效工作」可以当作一个有解释力的目标,而不是对现状的描述。评测时还要区分真实协作收益、「各自试一遍再选最好」和单纯加算力。只有协作在可比预算下持续优于各自为战,才说明组织本身产生了 1+1>1 的价值。
第三个问题:效率如何随运行时间保持
Fable 5 等系统已经把单个 Agent 连续工作的时间显著拉长;对目标相对明确的任务,数天无人值守正在变成现实。因此,这里不必再纠结「怎么让 Agent 一直跑」或具体技术细节。
更关键的是:跑得更久之后,产出还有没有价值。一个 Agent 连续跑几天,可能一直在推进,也可能只是在重复尝试,或慢慢耗光某个方向剩余的问题空间。Coding 与科研类 Agent 是要求最高的例子,但产品开发、运营、复杂工程也一样——重要的不是跑了多久,而是在更长时间尺度上还能产出多少新的、可用的结果。
要改善的是「单位时间有效产出随运行时长如何变化」。理想状态不是永不停机,而是在更长时间里维持较高产出,并在继续、转向、收束之间做出合理选择,尽量不依赖人一直盯着。Fable 5 说明这条曲线正在外推;接下来要看的是,这种进步能否从单个长任务,扩展到开放式、连续的复杂工作。
把三个问题放在一起:可扩展的自主工作系统
三个问题彼此牵制。Agent 一多,协调和整合负担就涨得快,时间维度的曲线会被压低;跑得越久,异常和冲突越多,人也越容易被拉回关键环节。因此,要扩展的不是某一条孤立曲线,而是由 Agent 数量 N、持续时间 T 和人类注意力 H 共同划出的「可扩展自治区域」。
人定目标、价值与风险边界 → 持久化项目状态与动态调度 → 可创建/销毁的规划、探索、执行、验证、整合角色 → 经核验的代码、知识、决策与下一轮任务
这套组织方式正在成形:人负责根本规则与例外处理;长期存在的是项目与工作状态;Agent 是弹性创建和销毁的计算单元;协作主要靠结构化产出和证据;系统按当前瓶颈调整角色配置;结果只有被验证、交付并纳入后续流程,才算真正产出。
长期稳定产出,往往还需要任务和项目的组合管理,而不是把 100 个 Agent 永远押在同一个问题上。单个方向容易做的进展总会做完,组织需要在项目之间重新分配资源:饱和的方向减人,出现异常或新机会的方向加人,等外部结果的方向先停,围绕新发现的问题快速组队。
这套构想指向什么
变化已经在发生。决定工作速度的,不再只是「最强模型能做什么」,还有「围绕模型的生产系统能组织什么」:人的判断是否只出现在真正高价值的位置,大量 Agent 能否并行推进互补工作,项目状态能否在长时间运行中保持目标、证据、产物和版本一致。
若横向曲线能从「加几个 Agent 就饱和」,推进到「几十、上百个 Agent 仍有可观边际收益」;若时间曲线能从「高效几小时」,稳定延伸到「数天乃至更久」;同时人类注意力不按同样速度增长——知识工作与复杂工程的单位时间产出,就有可能获得数量级提升。Coding Agent 是最底层的杠杆之一:软件连着研究、产品、业务系统和机器人开发,这种组织能力会从数字工作逐步外溢到制造、能源、生物、材料等行业。
一种正在成形的通用生产力单元,是持久化项目状态、弹性 Agent、有限的人类治理,以及可验证的工作闭环,共同组成的自主工作系统。