扩展自主工作

约 10 分钟

Published: June 17, 2026

这并不是在预测遥远的未来。单个 Agent 的长程工作、少量 Agent 的并行协作、持久化的项目状态，以及人工审批机制，都已经在出现。真正还没想清楚的是：如何把这些能力组织成一套能扩大规模、长期运转，又不过度占用人类注意力的通用生产系统。

核心主张：真正需要扩展的不是 Agent 数量本身，而是在极少占用人类注意力的情况下，持续完成、验证并整合「可靠工作闭环」的能力。

为什么这个问题重要

Coding Agent 是当前最重要、也最容易外溢到其他领域的 Agent 形态之一。越来越多的知识工作和工程流程，最终都要落在软件上：理解需求、读写代码、操作数据、调用工具、搭建评测、自动化流程，并根据反馈持续迭代。能稳定完成这些工作的 Agent，不只提高软件生产效率，还能进入研究、产品、运营和复杂工程，并参与开发其他 Agent、工具和自动化系统。

即使最终目标在物理世界，Coding Agent 也可以通过开发更可靠的感知、规划、控制、仿真和机器人算法，间接扩大自动化能覆盖的范围。生物和医疗是更具体的例子：问题本身在物理世界，但大量工作仍依赖计算模型和软件管线；若能把 AlphaFold 这类模型的研发速度加快十倍、百倍，结构生物学、药物发现等方向都可能明显提速。它消不掉硬件、实验和现实约束，但已经能加快不少系统的设计、验证和迭代。科研类 Agent 可以看作其中更开放、不确定性更高的一类，并不是这套想法的边界。

因此，值得讨论的并不是「Agent 将来会不会多写点代码」，而是这些已经出现的能力，能否被组织成高效、可验证、可持续的工作流程。若这种组织方式真能扩展，单位时间产出出现数量级提升就不是空想；其影响也不会局限在软件、AI 或科研。

为什么现在值得讨论

人的数量、注意力和工作时长终究有限；Agent 的有效供给和能力，却在同时受益于四方面的进展：基础模型、Agent 运行框架与工具、推理和训练算力，以及执行基础设施。模型更强，能处理更复杂的任务；框架更好，同一模型就更稳、能跑更久；基础设施更成熟，更多任务可以并行，结果也回流得更快。

这个过程还在形成正反馈。开发 Agent 本身，大量就是写代码、设计评测、分析失败和优化系统；Coding Agent 可以直接参与改进模型训练、工具、框架、基础设施和下一代 Agent。循环一旦转起来，瓶颈就会从「单个 Agent 够不够聪明」，转向「我们会不会组织越来越多、越来越强的 Agent」。

这些已经不是纯概念。Fable 5 等近期系统显著拉长了单 Agent 的工作周期，数天无人值守已经开始进入可用范围；少量 Agent 并行、持久化状态、自动验证和人工审批也都出现了。还没解决的是：当 Agent 数量和时间一起放大时，怎样避免重复劳动、验证、交付整合、人工审批或状态污染重新成为瓶颈。

究竟该扩展什么

不宜把「Agent 数量」或「总 token 数」直接当作扩展目标。100 个 Agent 同时写代码、出方案或写报告，不等于 100 倍生产力。更有价值的基本单元，是一个完整、可验证、能被后续工作复用的闭环：

理解目标 → 分解与规划 → 执行 → 验证 → 交付并整合

一个常用的抽象，是把累计有效产出记为 Q(N, T, H, B)：N 是并行 Agent 数，T 是运行时长，H 是人类注意力，B 是模型调用、算力、工具和执行资源。核心问题是：怎样让 Q 随 N 和 T 继续增长，同时让 H 尽量慢地增长——要扩展的不是「对话窗口」，而是单位时间里能完成、验证并整合多少个可靠工作闭环。

问题维度	核心问题	希望改善的趋势
人类边界	人只保留不可外包的目标、价值判断和高风险决策	人力投入不随 Agent 数量和时间近线性增长
横向扩展	更多 Agent 同时推进互补工作	加速比随 N 仍为正，而不是 3–4 个就饱和
时间扩展	系统连续运行后仍能产生新价值	长期产出率下降更慢，能稳定工作数天乃至更久

第一个问题：人类与 Agent 的工作边界

要继续抬高 Agent 系统的上限，人就得逐步退出日常执行的主路径。只要每个任务、每次合并、每次交付或每个结论都要人点头，人的处理能力就是硬上限。更可扩展的做法，是让人主要待在「定目标、管治理」这一层，只处理少量必须升级的异常。

「需要人」通常有两类原因。第一类是必须由人拍板的决策：工作目标、价值取舍、风险预算、不可逆的现实行动、是否调整成功标准，以及是否部署、发布或对外作出重要承诺。即便 Agent 技术上做得到，人可能仍要负最终责任。第二类是当前的能力差距，比如根因分析、关键验证设计、异常值是否值得追、证据冲突如何裁决。随着 Agent 变强，这条线也应持续后移。

因此，边界不必写死成「人定目标、Agent 执行、人逐项验收」。更可行的思路是按情况升级：任务明显超出已知分布、Agent 之间严重分歧、操作代价高或不可逆、关键结果无法验证时，再叫人；其余环节尽量让 Agent 自己闭环。哪些情况真的需要人，应该靠实证回答，而不是事先假定。

理想目标：Agent 数量扩大十倍、运行时间扩大十倍时，人类投入最好几乎保持不变。人管方向和规则，Agent 管执行。

第二个问题：效率如何随 Agent 数量增长

不少多 Agent 系统在少量 Agent 之后，边际收益就明显下滑。问题往往不是没有更多「人手」，而是没有更多独立、有价值的工作通道。相同模型、相同上下文、相同目标的 Agent 容易给出同质方案；与此同时，执行、验证和产物整合常常跟不上方案产出的速度。

值得重点探索的组织形式，是动态 Agent 池，而不是固定团队。长期保存的是工作状态——目标与任务图、假设与约束、证据、代码与产物谱系、未解矛盾和资源占用；Agent 则是临时计算单元：创建、领任务、在隔离环境里工作、提交结构化产出，任务结束即退出。

发现可并行任务 → 动态创建 Agent → 独立执行 → 验证与复现 → 整合并重新调度

若只扩「出方案」的 Agent，很快就会撞上新瓶颈。一套生产系统至少有规划、执行、验证、整合四个环节，吞吐量取决于最慢的一环：100 个 Agent 每小时提出 500 个改动，验证只能处理 10 个，多出来的规模只会制造积压、冲突和噪声。调度器需要按实时队列和瓶颈，动态增减探索、执行、验证、整合角色，并暂停、迁移或终止低价值分支。

发现并行性。 复杂工作很少一开始就是 100 张独立工单；系统得主动把模糊目标展开成动态任务图，并持续扩大可并行的空间。
避免冗余。 名义上的 N 不重要，重要的是能贡献独立方案、不同证据和互补技能的有效 Agent 数 N_eff。
稀疏协作。 100 个 Agent 不可能互读全部日志；协作应通过任务依赖、结构化产出和证据链完成，而不是全员群聊。
同步扩展验证与整合。 生成候选只是前半程；测试、复现、消冲突、合并分支和更新交付，需要同等规模的带宽。
学习组织方式。 系统应跨任务记录哪些角色组合、分工方式带来了真实进展，让调度本身越变越好。

我们关心的是：单位时间有效产出如何随 N 增长。「100 个 Agent 一天干完单 Agent 约 40 天的有效工作」可以当作一个有解释力的目标，而不是对现状的描述。评测时还要区分真实协作收益、「各自试一遍再选最好」和单纯加算力。只有协作在可比预算下持续优于各自为战，才说明组织本身产生了 1+1>1 的价值。

第三个问题：效率如何随运行时间保持

Fable 5 等系统已经把单个 Agent 连续工作的时间显著拉长；对目标相对明确的任务，数天无人值守正在变成现实。因此，这里不必再纠结「怎么让 Agent 一直跑」或具体技术细节。

更关键的是：跑得更久之后，产出还有没有价值。一个 Agent 连续跑几天，可能一直在推进，也可能只是在重复尝试，或慢慢耗光某个方向剩余的问题空间。Coding 与科研类 Agent 是要求最高的例子，但产品开发、运营、复杂工程也一样——重要的不是跑了多久，而是在更长时间尺度上还能产出多少新的、可用的结果。

要改善的是「单位时间有效产出随运行时长如何变化」。理想状态不是永不停机，而是在更长时间里维持较高产出，并在继续、转向、收束之间做出合理选择，尽量不依赖人一直盯着。Fable 5 说明这条曲线正在外推；接下来要看的是，这种进步能否从单个长任务，扩展到开放式、连续的复杂工作。

把三个问题放在一起：可扩展的自主工作系统

三个问题彼此牵制。Agent 一多，协调和整合负担就涨得快，时间维度的曲线会被压低；跑得越久，异常和冲突越多，人也越容易被拉回关键环节。因此，要扩展的不是某一条孤立曲线，而是由 Agent 数量 N、持续时间 T 和人类注意力 H 共同划出的「可扩展自治区域」。

人定目标、价值与风险边界 → 持久化项目状态与动态调度 → 可创建/销毁的规划、探索、执行、验证、整合角色 → 经核验的代码、知识、决策与下一轮任务

这套组织方式正在成形：人负责根本规则与例外处理；长期存在的是项目与工作状态；Agent 是弹性创建和销毁的计算单元；协作主要靠结构化产出和证据；系统按当前瓶颈调整角色配置；结果只有被验证、交付并纳入后续流程，才算真正产出。

长期稳定产出，往往还需要任务和项目的组合管理，而不是把 100 个 Agent 永远押在同一个问题上。单个方向容易做的进展总会做完，组织需要在项目之间重新分配资源：饱和的方向减人，出现异常或新机会的方向加人，等外部结果的方向先停，围绕新发现的问题快速组队。

这套构想指向什么

变化已经在发生。决定工作速度的，不再只是「最强模型能做什么」，还有「围绕模型的生产系统能组织什么」：人的判断是否只出现在真正高价值的位置，大量 Agent 能否并行推进互补工作，项目状态能否在长时间运行中保持目标、证据、产物和版本一致。

若横向曲线能从「加几个 Agent 就饱和」，推进到「几十、上百个 Agent 仍有可观边际收益」；若时间曲线能从「高效几小时」，稳定延伸到「数天乃至更久」；同时人类注意力不按同样速度增长——知识工作与复杂工程的单位时间产出，就有可能获得数量级提升。Coding Agent 是最底层的杠杆之一：软件连着研究、产品、业务系统和机器人开发，这种组织能力会从数字工作逐步外溢到制造、能源、生物、材料等行业。

一种正在成形的通用生产力单元，是持久化项目状态、弹性 Agent、有限的人类治理，以及可验证的工作闭环，共同组成的自主工作系统。