多智能体入门：工作流vs智能体、编排拓扑、15倍成本、级联失败

Q: 按 Anthropic 的区分，「工作流」和「智能体」的关键差别是？

工作流按预设代码路径编排，智能体由 LLM 自主决定流程。工作流 = 预设路径，智能体 = LLM 自主决定流程与工具；能用工作流就别上自主智能体，先简后繁。

Q: 下面哪种任务最适合拆成多智能体？

广度优先、可并行、超出单上下文窗口的高价值任务（如多角度同时调研）。多 agent 适合广度可并行；紧耦合任务拆了互相打架，且多 agent 约 15 倍 token 成本，要值回票价才拆。

Q: 判断对错：「多智能体系统里，agent 越多就越聪明、越不容易出错。」

错误。错误会在 agent 链上级联放大，一个小问题能让整链跑偏；且成本约 15 倍。该不该拆要看任务是否广度可并行、价值是否够高。

先分清：工作流 vs 智能体，以及要不要拆成多个

先破一个混用：Anthropic 把「工作流」（按预设代码路径编排 LLM 和工具）和「智能体」（由 LLM 自主决定流程和工具）分开——能用工作流解决就别上自主智能体，先简后繁。要不要拆成多个 agent？编排器-工作者（orchestrator-workers）是主力模式：一个中央 LLM 动态把任务拆给子 agent、再汇总。常见拓扑：网络 / 监督者 / 层级。

多 agent 适合「广度优先、可并行、超出单个上下文窗口」的高价值任务（比如一个 agent 同时从多个角度调研）；不适合紧耦合、步骤强依赖的任务（拆了反而互相打架）。MetaGPT 这类把人类 SOP 和角色分工编码进流水线 + 结构化文档传递，能减少级联幻觉。

多 agent 的两张账单：成本 15 倍，和会级联的错误

拆多 agent 不是免费的。成本：多智能体大约是普通对话的 15 倍 token（单 agent 约 4 倍）——别为了「更聪明」无脑拆。增益也是两面的：Anthropic 内部评测多 agent 比单 agent 强 90.2%（仅限其内部调研类评测，非通用 benchmark），但学界（Cemri 等 2025）发现多数 benchmark 上增益其实很小；失败模式还可系统编目：MAST 把 14 种失败归为「系统设计 / agent 间错位 / 任务验证」三类。

最该记的误区：「agent 越多越聪明」是错的——错误会在 agent 链上级联放大，一个小问题能让整条链跑偏。不过多 agent 也有独门绝活：多智能体辩论（多个 LLM 实例多轮互相批评、收敛共识）能显著提升推理正确率和事实性。三类框架范式可对照：AutoGen（对话式）、CrewAI / MetaGPT（角色-任务式）、LangGraph（图式）。

⚠️默认先单 agent + 工作流；只有当任务确实广度可并行、且价值高到值回 15 倍 token，才拆多 agent。

自测 · 学完检查一下

想真正动手做题、记进度、攒连胜？到互动课里练。

按 Anthropic 的区分，「工作流」和「智能体」的关键差别是？

答案：工作流按预设代码路径编排，智能体由 LLM 自主决定流程

工作流 = 预设路径，智能体 = LLM 自主决定流程与工具；能用工作流就别上自主智能体，先简后繁。

下面哪种任务最适合拆成多智能体？

答案：广度优先、可并行、超出单上下文窗口的高价值任务（如多角度同时调研）

多 agent 适合广度可并行；紧耦合任务拆了互相打架，且多 agent 约 15 倍 token 成本，要值回票价才拆。

判断对错：「多智能体系统里，agent 越多就越聪明、越不容易出错。」

答案：错误

错误会在 agent 链上级联放大，一个小问题能让整链跑偏；且成本约 15 倍。该不该拆要看任务是否广度可并行、价值是否够高。