什么时候该从单 Agent 升级到多智能体？

当任务需要明确分工、并行探索、或独立评审链，且单 Agent 的 prompt 已超过可维护阈值（通常 3 个以上异质角色）时，应考虑流水线拆分。

多智能体一定比单 Agent 贵吗？

总 token 可能更高，但用小模型做执行、大模型做规划，加上缓存与确定性步骤外包给脚本，整体成本与延迟往往更可控。

从单 Agent 到多智能体流水线：2026 AI 开发进入团队协作时代

去年我们给一家做 SaaS 的客户搭「全能客服 Agent」：同一条 system prompt 里塞了售前、售后、报价、排障四套人格，还附了二十页 FAQ。上线第一周好评如潮；第三周开始，它把售后工单当成售前线索追单，又把排障步骤里的内部代号直接发给客户。

复盘时没人怪模型「不够聪明」。问题很朴素：我们把本该四个岗位的活，硬塞给了一个打工人。 2026 年行业里越来越统一的判断是——单 Agent 并没有过时，但它更适合边界清晰、工具链短的任务；一旦进入「调研 → 写码 → 测试 → 评审 → 发布」这类多阶段、可并行、需要互相纠错的流程，就该认真考虑多智能体流水线（Multi-agent Pipeline）。

这篇文章不讲「Agent 是什么」的百科，只讲我们自己在 OpenClaw、IDE Agent 和内部 PoC 里看到的架构迁移路径：先搞清单 Agent 内部怎么转，再谈怎么拆成团队，最后落到 2026 年常见的三层技术栈。若你已经在纠结记忆与成本，可对照 Agent Memory 与聊天记录和团队 Agent 成本账单。

1→N

角色从 prompt 面具到独立节点

ReAct

单 Agent 核心推理循环

3 层

Harness / Framework / Runtime

单 Agent 时代：擅长「扮演」，不擅长「协作」

早期 Agent 产品的竞争焦点，往往是谁家的 system prompt 更像专家、谁家人格切换更丝滑。你把「资深架构师」「毒舌 Code Reviewer」「温柔 PM」写成段落，模型确实能在一次对话里切换语气——这叫单 Agent 角色扮演（Single-Agent Role-Playing）。

它的优势很明显：部署简单、链路短、调试时只有一条 trace。Cursor、Claude Code、各类 ChatGPT 自定义 GPT，在 2024–2025 年把这条路走到了极致。

瓶颈也同样清晰：

上下文污染——调研笔记、代码 diff、测试日志挤在同一窗口，后面的步骤被前面的噪声带偏。
责任模糊——出错了说不清是「规划错了」还是「执行错了」，很难只重跑其中一个环节。
并行度为零——模型再强，一次也只能顺着一个思路往下推；真实团队里却常有多人同时查资料、写模块、跑用例。
安全边界难拆——你不希望「写代码的 Agent」和「操作生产库的 Agent」共用同一套工具权限，单 prompt 很难做细粒度隔离。

所以当任务从「回答一个问题」变成「交付一个可合并的 PR」，继续加厚 prompt 的收益会急剧下降。这不是模型退步，而是问题形态变成了工程问题——需要分工、握手机制和状态交接，而不是更好的形容词。

多智能体时代：从「一人千面」到「握手协议」

多智能体协作（Multi-Agent Collaborative Role-Playing）换了一个隐喻：不再是同一个演员换面具，而是台上多个角色，各演各的，靠剧本和导演衔接。每个 Agent 有窄而深的职责——Planner 只拆任务，Coder 只改指定目录，Reviewer 只读 diff 不给「顺手改两行」的权限。

它们之间靠三类东西对齐：

共享状态——计划、文件树快照、测试结果、待办列表，存在图状态或 Memory Store 里，而不是散落在聊天里。
结构化交接——上一步输出 JSON / patch / checklist，下一步只消费 schema 合法的字段；避免「请参考上文」这种不可执行的衔接。
终止与仲裁——何时算完成、何时升级给人、何时回滚，由 Evaluator 或规则节点决定，而不是让最后一个 Agent 自己说「好了」。

我们在内部 PoC 里把「全能客服」拆成 Intent Router、FAQ Retriever、Ticket Writer、Escalation Guard 四个节点后，误发内部术语的事故归零——不是因为模型换了，而是 Escalation Guard 根本没有「对客户说话」的工具权限。

判断要不要上多智能体

若你的任务能用一张 checklist 在 30 分钟内人肉跑完，且只有线性三步，单 Agent + 好工具通常足够。若存在并行探索（同时试两种实现）、对抗式评审（专门找茬的 Reviewer）或跨会话状态，就该画流水线图了。

搞清单 Agent 内部：ReAct 与系统分层

在拆团队之前，先把单个 Agent 的内脏看清楚。2026 年主流工程实践（无论 LangChain、OpenAI Agents SDK 还是 Cursor）背后都是类似的骨架：

AI Agent 系统架构：指令层、ReAct 循环、工具层、确定性约束与状态记忆 — 单 Agent 完整架构：用户目标进入指令层，核心 ReAct 循环驱动工具执行，确定性约束与状态记忆形成闭环。

从上到下读这张图：

指令层——System Prompt、AGENTS.md、Skills 把「用户目标」翻译成可执行约束。Skills 本质是可复用的子程序，还没有拆成独立 Agent 时的中间形态。
ReAct 循环——Reason → Tool → Observe。模型推理、调用 Bash / Browser / MCP / Search，读回结果再推理。这是单 Agent 的「心跳」。
工具层与执行环境——Filesystem、Git、Sandbox 决定 Agent 能碰什么。MCP（Model Context Protocol）在 2026 年已是事实标准：工具一次接入，多个 Agent 可共享。
确定性约束——Hooks、Middleware、Evaluator 在循环外兜底：禁止删库、强制跑测试、对输出做 schema 校验。
状态与记忆——Plan、Logs、Memory Store 回灌 ReAct，让下一步推理站在「世界真实状态」上，而不是幻觉里的进度。

多智能体并不是抛弃这张图，而是把每个框复制多份，用图编排连起来。Planner 节点可能只有指令层 + 轻量 ReAct；Worker 节点才有完整工具层；Judge 节点可能只有 Evaluator，没有写文件权限。

LangGraph 文档把「线程内消息」和「跨线程 store」分开（见 LangGraph Memory 概念），正是在解决：多 Agent 共享的到底是聊天记录，还是可版本化的状态对象。

多智能体流水线：四种常见拓扑

「多智能体」不是越多越好。我们给客户画架构时，先选拓扑，再数人头：

拓扑	怎么协作	典型场景	主要风险
顺序流水线	A → B → C，单向交接	调研 → 写 spec → 写码 → 单测	上游错了全盘重做；要支持 checkpoint
主管-工人	Supervisor 派单，Worker 回报	多文件并行改、Map-Reduce 式代码迁移	Supervisor 上下文膨胀；工人之间冲突合并
辩论 / 评审	Proposal + Critic 多轮	安全审计、架构选型、发布说明	空转辩论烧 token；要有最大轮次
人机混合	关键节点 `interrupt` 等人确认	生产变更、对外邮件、计费逻辑	等待人类时状态要持久化，别绑在某台笔记本上

2026 年一个明显趋势是：把确定性步骤踢出 LLM。格式化、lint、跑测试、打 tag，用 CI 脚本或 Hooks 做；Agent 只负责「想」和「写初稿」。我们在云 Mac 上跑 iOS 构建时，Agent 只提交 diff，xcodebuild 永远在隔离 runner 里执行——这和传统软件团队「开发不写生产」是同一逻辑。

LangChain 的 Multi-agent 概念页把 Supervisor、Swarm、Handoff 都建模成图上的边；选哪种边，比选哪个模型重要得多。

2026 技术栈三层：Harness / Framework / Runtime

当流水线节点超过三个、又要长期跑在 IDE / VPS / Cron 里，「一个 Python 脚本串 prompt」就不够用了。行业里逐渐收敛成三层：

Agent 技术栈三层：Harness DeepAgents、Framework LangChain、Runtime LangGraph — 自下而上：LangGraph 管状态与编排；LangChain 管组件与工具抽象；Harness（如 DeepAgents）管评测、部署与运维。

Runtime（LangGraph）——回答「下一步跑哪个节点、状态存哪、失败怎么回滚」。有环、有并行、有持久化 checkpoint，这是多智能体与「链式 prompt」的本质分界。官方 LangGraph 把应用建模成 Pregel 式超级步，适合「团队协作」这种需要全局调度的问题。

Framework（LangChain）——回答「模型怎么调、工具怎么包、RAG 怎么接」。它提供零件，但不强制你怎么组队。很多团队只借用 LangChain 的 tool adapter，编排完全放在 LangGraph 里——这很正常。

Harness（DeepAgents 等）——回答「怎么测、怎么部署、怎么跟人对齐」。包括轨迹评测、A/B prompt、权限沙箱、与 OpenClaw / Cursor 这类宿主集成。2026 年竞争焦点正在从「谁的 Agent 更聪明」转向「谁的 Harness 更敢上生产」。

选型顺序建议

先定 Runtime 能否表达你的拓扑（顺序 / 并行 / 中断），再选 Framework 接 MCP 与模型，最后才挑 Harness 做观测与交付。反过来的话，常见结局是：Demo 一周，上线时发现在图里表达不了「等人类点同意」。

落地清单：从 Demo 到可维护流水线

下面是我们给内部和试点客户用的最小清单，不绑定厂商：

画状态图，不画组织图——节点是「做什么」，边是「交什么数据结构」；避免「小张 Agent、小李 Agent」这种人名节点。
每个节点写清输入输出 schema——JSON Schema 或 TypedDict；失败时才能局部重试。
工具权限按节点最小化——Reviewer 只读；Deployer 才能碰生产 webhook。
全链路 Trace——每个 Agent 的 tool call、token、耗时进同一 trace id，方便回放（对应架构图里的「交付结果 / Trace / 回放」）。
记忆分层——线程内消息、跨会话 Memory、向量库 RAG 各管一事；详见 Memory 一文，别让多 Agent 抢写同一条事实。
成本预算按节点——Planner 用大模型，Formatter 用小模型或规则；团队账单里「多 Agent」不等于线性涨价。

执行环境也要拆：我们在 VPS 上跑 OpenClaw 网关和轻量节点，把 xcodebuild、浏览器重自动化、大仓库索引丢到云 Mac——避免一台机器又当大脑又当肌肉，合盖就全员下班。这和多 Agent 的分工哲学是一致的，只是落到了硬件层。

常见踩坑

把五个 Agent 都接同一个「万能工具包」，等于没拆；Supervisor 包揽所有反思导致它比单 Agent 更胖；没有 Evaluator，辩论拓扑会无限互捧。最小修复：拆工具、限轮次、加确定性门禁。

你可能还想问

单 Agent 会被淘汰吗？

不会。查资料、改单文件、写邮件这类短链任务，单 Agent + Skills 往往更快更省。多智能体是复杂交付的选项，不是默认配置。

和 MCP、Skills 是什么关系？

MCP 统一工具接口；Skills 是单 Agent 内的能力模块。流水线化后，一个 Skill 可以升级成独立 Agent 节点，工具通过 MCP 共享，避免每个 Agent 各写一遍 GitHub 集成。

OpenClaw 算多智能体吗？

网关本身可以是编排层：不同 channel、Cron、子 agent 配置相当于轻量拓扑。要上完整图编排，通常还要接 LangGraph 或宿主 IDE 的多 Agent 模式，OpenClaw 更适合做 7×24 的执行面与通道。