Question 1

在「编排器-工作者（orchestrator-workers）」模式里，子任务是怎么产生的？它和固定并行（parallelization）的关键区别是什么？

Accepted Answer

子任务由中央 LLM（编排器）根据具体输入临时动态决定，区别在于灵活性——子任务不是预先定义好的。在 orchestrator-workers 中，一个中央 LLM 动态分解任务、把子任务委派给多个 worker、再综合结果。它与固定并行的关键区别正是「灵活性」——子任务不是预先定义好的，而是由编排器根据具体输入临时决定的。Anthropic 研究系统的 LeadResearcher / Subagent / CitationAgent 就是这个模式的实例。

Question 2

LangGraph 给出的三大多智能体编排拓扑里，「每个 agent 只与一个中央 agent 通信、由它决定下一个调谁」描述的是哪一种？

Accepted Answer

监督者（supervisor）。监督者（supervisor）拓扑里，每个 agent 只与一个中央监督 agent 通信，由监督者决定下一个调用谁。对照：网络（network）是多对多、任一 agent 可决定下一个调谁；层级（hierarchical）是在监督者之上再设监督者，组成「团队的团队」。监督者模式也常被叫作编排器-工作者。

Question 3

判断：只要把任务交给多个 agent 协作，性能就一定会比单 agent 好，所以应该尽量多上 agent。

Accepted Answer

错误。错误。这是典型误区。一面是 Anthropic 内部评测多 agent 比单 agent 高出 90.2%，但另一面是 Cemri 等（2025）发现多 agent 在多数主流 benchmark 上相对单 agent 的增益往往很小；增益强依赖任务是否真正可并行 / 超单上下文。而且 agentic 系统有误差复合特性——「加更多 agent」会让小错级联成大的行为偏离（如为简单查询生成 50 个 subagent）。

Question 4

判断：Anthropic 实测多智能体系统大约比普通对话多用约 15 倍 token（单 agent 约 4 倍），所以它只适合结果价值足以盖过这笔开销的任务。

Accepted Answer

正确。正确。Anthropic 实测：普通 agent 约比 chat 对话多用约 4 倍 token，多智能体系统约多用 15 倍 token；在 BrowseComp 上仅 token 用量就解释了 80% 的表现方差。多 agent 的增益主要靠烧更多 token 把推理铺到多个独立上下文换来，因此只适合结果价值足以抵消成本、且任务天然可拆分时才上。

Question 5

Cemri 等提出的 MAST 失败分类法把多智能体的 14 种失败模式归为三大类。下面哪一组是它的三大类？

Accepted Answer

系统设计 / 规范问题、agent 间错位（沟通不畅 / 相互打断 / 信息不一致）、任务验证不足。MAST（Cemri 等 2025）跨 7 个主流框架标注 1600+ 条轨迹，把 14 种失败模式归为三大类：(i) 系统设计 / 规范问题、(ii) agent 间错位（inter-agent misalignment，如沟通不畅、相互打断、信息不一致）、(iii) 任务验证不足，标注者间一致性 Cohen's Kappa 达 0.88。核心洞见是很多失败属于「组织 / 协调」层面，要靠更精细的系统设计解决，而非单纯模型能力不足。

多智能体协作：编排拓扑、增益与 15× token 成本 | AI Agent 工程师

先分清工作流与智能体，再谈编排拓扑

主力模式：编排器-工作者，与三类框架范式

两面性：增益很诱人，代价也很真实

自测 · 学完检查一下