🤖 AI Agent 工程师 · AI Agent 工程师·核心技能

多智能体协作:编排拓扑、增益与 15× token 成本 | AI Agent 工程师

什么时候该上多 agent,什么时候纯属烧钱

先分清工作流与智能体,再谈编排拓扑

Anthropic 在《Building Effective Agents》里把 agentic 系统分成两类:

- 工作流(Workflows)——LLM 与工具通过预先写定的代码路径来编排。
- 智能体(Agents)——LLM 自主决定自己的流程与工具用法,自己掌控如何完成任务。

核心建议是:先找尽可能简单的方案,只在确有必要时才增加复杂度。因为 agentic 系统本质是「用延迟和成本换更好的任务表现」。多智能体处在复杂度谱系的最高端,应在简单工作流不够用时才引入。

当真要拆成多 agent 时,LangGraph 官方文档给出三大编排拓扑:

- 网络(network)——每个 agent 可与其它任意 agent 通信,多对多,任一 agent 可决定下一个调谁。
- 监督者(supervisor)——每个 agent 只与一个中央监督 agent 通信,由监督者决定下一个调用谁。
- 层级(hierarchical)——监督者之上再设监督者,组成「团队的团队」,用于更复杂的系统。

🔆把它想成一家公司:网络是所有人随时互相喊话的小作坊,灵活但容易乱;监督者是有一个项目经理统一派活、大家只对 PM 汇报;层级是大公司里 PM 之上还有总监、总监之上还有 VP,一层层管。规模越大越需要上层的协调结构。

把单 agent 拆成多 agent 的典型动因有三个:单 agent 工具太多导致选择变差上下文增长到难以追踪、或需要多个专业化领域分别处理。没有这些动因,就别急着拆。

📷 配图位:三张并排的拓扑图,从左到右「网络 network(多对多连线)/ 监督者 supervisor(星形,中心一个 PM 节点)/ 层级 hierarchical(树形,监督者之上还有监督者)」

主力模式:编排器-工作者,与三类框架范式

多智能体的主力模式是「编排器-工作者(orchestrator-workers)」:一个中央 LLM 动态地分解任务、把子任务委派给多个 worker LLM,再综合它们的结果。

它和固定并行(parallelization)的关键区别是灵活性——子任务不是预先定义好的,而是由编排器根据具体输入临时决定的。

Anthropic 的研究系统就是这个模式的实例:LeadResearcher 负责规划与委派,专职 Subagent各自独立的上下文窗口里并行检索,最后由 CitationAgent 统一处理引用归属。(注意:监督者模式 ≈ 编排器-工作者,是同一思路的不同叫法。)

💡三类框架范式各有侧重,选型时按任务形态对号入座:

- AutoGen——对话式:核心抽象是「可对话 agent」,让多个能彼此对话的 agent 通过『对话编程』组织交互,可混合 LLM/人类/工具。
- CrewAI / MetaGPT——角色-任务式:预先固定专业角色(产品经理/架构师/工程师等)按 SOP 流水线推进,靠结构化文档而非自由对话协作。
- LangGraph——图式状态机:每个 agent 是有向图中的节点,全局 state 作为共享内存跨步骤持久化,用 network/supervisor/hierarchical 显式编排控制流,便于追踪与可控终止。

为什么「结构化」这么重要?早期的 CAMEL(2023)让两个 LLM(AI 用户 + AI 助手)靠 inception prompting 自主对话协作,但论文直面了自由对话的典型坑:角色翻转(助手反过来发指令)、反复复述指令对话退化 / 无限循环MetaGPT 的解法是把人类 SOP 编码成提示词序列、用流水线 + 结构化文档传递取代自由对话——这「减少了因级联幻觉造成的逻辑不一致」,集成 GPT-4 时在 HumanEval 达 85.9%、MBPP 达 87.7% Pass@1。另一条增强正确率的路子是 多智能体辩论(Du 等 2023):多个 LLM 实例就各自答案多轮互辩、收敛到共识答案,「显著增强数学与策略推理能力」并提升事实正确性、减少幻觉。

两面性:增益很诱人,代价也很真实

先说正面(增益)。 Anthropic 内部研究评测中,以 Claude Opus 4 为 lead、Claude Sonnet 4 为 subagent 的多 agent 系统,比单 agent 的 Opus 4 高出 90.2%——典型如「找出 S&P 500 信息技术板块所有公司的董事会成员」这类广度并行任务。多 agent 擅长的正是「有价值、需要大量并行、信息量超出单个上下文窗口、需要对接众多复杂工具」的任务,尤其是需要同时追多个独立方向的广度优先查询

⚠️但别只看这一面。 学界(Cemri 等 2025)系统研究指出:尽管对多 agent 热情高涨,它们在主流 benchmark 上相对单 agent 的性能增益往往很小。增益强依赖任务是否真正可并行 / 超单上下文;盲目上多 agent 常常不值。大多数编码任务可真正并行的子任务比研究少,且要求 agent 共享同一上下文或彼此大量依赖——这种紧耦合任务多 agent 反而不合适。

代价一:成本。 Anthropic 实测:普通 agent 大约比 chat 对话多用约 4 倍 token,而多智能体系统约多用 15 倍 token。在 BrowseComp 评测上「三个因素解释了 95% 的表现方差,仅 token 用量本身就解释 80%」(另两个是工具调用次数与模型选择)。含义很直接:多 agent 的增益主要来自烧更多 token把推理铺到多个独立上下文窗口换来的,所以它只适合结果价值足以盖过这笔开销的任务,否则纯属烧钱加延迟。

代价二:误差复合 + 失败模式。 「加更多 agent 就更强」是个误区——agentic 系统有复合(compound)误差特性,传统软件里的小毛病在多 agent 里会让整体行为大幅偏离,「小错级联成大的行为改变」。Anthropic 观察到的真实坑:为简单查询生成 50 个 subagent、在网上无休止搜索根本不存在的来源、agent 之间用过量状态更新互相干扰、以及已经拿到足够结果仍不停手

💡这些失败可以被系统编目:Cemri 等提出的 MAST 跨 7 个主流框架标注 1600+ 条轨迹,把 14 种失败模式归为三大类——(i) 系统设计 / 规范问题,(ii) agent 间错位(沟通不畅、相互打断、信息不一致),(iii) 任务验证不足(标注者间一致性 Cohen's Kappa 达 0.88)。核心洞见:很多失败是「组织 / 协调」层面的问题,要靠更精细的系统设计解决,而不单是模型能力不足。所以多 agent 必须配套:明确的终止条件、对 agent 数量与编排的约束、以及大量沙盒测试

自测 · 学完检查一下

想真正动手做题、记进度、攒连胜?到互动课里练。

在「编排器-工作者(orchestrator-workers)」模式里,子任务是怎么产生的?它和固定并行(parallelization)的关键区别是什么?

答案:子任务由中央 LLM(编排器)根据具体输入临时动态决定,区别在于灵活性——子任务不是预先定义好的

在 orchestrator-workers 中,一个中央 LLM 动态分解任务、把子任务委派给多个 worker、再综合结果。它与固定并行的关键区别正是「灵活性」——子任务不是预先定义好的,而是由编排器根据具体输入临时决定的。Anthropic 研究系统的 LeadResearcher / Subagent / CitationAgent 就是这个模式的实例。

LangGraph 给出的三大多智能体编排拓扑里,「每个 agent 只与一个中央 agent 通信、由它决定下一个调谁」描述的是哪一种?

答案:监督者(supervisor)

监督者(supervisor)拓扑里,每个 agent 只与一个中央监督 agent 通信,由监督者决定下一个调用谁。对照:网络(network)是多对多、任一 agent 可决定下一个调谁;层级(hierarchical)是在监督者之上再设监督者,组成「团队的团队」。监督者模式也常被叫作编排器-工作者。

判断:只要把任务交给多个 agent 协作,性能就一定会比单 agent 好,所以应该尽量多上 agent。

答案:错误

错误。这是典型误区。一面是 Anthropic 内部评测多 agent 比单 agent 高出 90.2%,但另一面是 Cemri 等(2025)发现多 agent 在多数主流 benchmark 上相对单 agent 的增益往往很小;增益强依赖任务是否真正可并行 / 超单上下文。而且 agentic 系统有误差复合特性——「加更多 agent」会让小错级联成大的行为偏离(如为简单查询生成 50 个 subagent)。

判断:Anthropic 实测多智能体系统大约比普通对话多用约 15 倍 token(单 agent 约 4 倍),所以它只适合结果价值足以盖过这笔开销的任务。

答案:正确

正确。Anthropic 实测:普通 agent 约比 chat 对话多用约 4 倍 token,多智能体系统约多用 15 倍 token;在 BrowseComp 上仅 token 用量就解释了 80% 的表现方差。多 agent 的增益主要靠烧更多 token 把推理铺到多个独立上下文换来,因此只适合结果价值足以抵消成本、且任务天然可拆分时才上。

Cemri 等提出的 MAST 失败分类法把多智能体的 14 种失败模式归为三大类。下面哪一组是它的三大类?

答案:系统设计 / 规范问题、agent 间错位(沟通不畅 / 相互打断 / 信息不一致)、任务验证不足

MAST(Cemri 等 2025)跨 7 个主流框架标注 1600+ 条轨迹,把 14 种失败模式归为三大类:(i) 系统设计 / 规范问题、(ii) agent 间错位(inter-agent misalignment,如沟通不畅、相互打断、信息不一致)、(iii) 任务验证不足,标注者间一致性 Cohen's Kappa 达 0.88。核心洞见是很多失败属于「组织 / 协调」层面,要靠更精细的系统设计解决,而非单纯模型能力不足。

想边练边学,而不只是读?

到互动课里答题、记进度、攒连胜——游客即可试学,无需注册。

进入互动课程 →

学点新东西,不错过更新

新课程、新功能、学习小技巧——偶尔一封,随时退订。