去年我们给一家做 SaaS 的客户搭「全能客服 Agent」:同一条 system prompt 里塞了售前、售后、报价、排障四套人格,还附了二十页 FAQ。上线第一周好评如潮;第三周开始,它把售后工单当成售前线索追单,又把排障步骤里的内部代号直接发给客户。
复盘时没人怪模型「不够聪明」。问题很朴素:我们把本该四个岗位的活,硬塞给了一个打工人。 2026 年行业里越来越统一的判断是——单 Agent 并没有过时,但它更适合边界清晰、工具链短的任务;一旦进入「调研 → 写码 → 测试 → 评审 → 发布」这类多阶段、可并行、需要互相纠错的流程,就该认真考虑多智能体流水线(Multi-agent Pipeline)。
这篇文章不讲「Agent 是什么」的百科,只讲我们自己在 OpenClaw、IDE Agent 和内部 PoC 里看到的架构迁移路径:先搞清单 Agent 内部怎么转,再谈怎么拆成团队,最后落到 2026 年常见的三层技术栈。若你已经在纠结记忆与成本,可对照 Agent Memory 与聊天记录 和 团队 Agent 成本账单。
单 Agent 时代:擅长「扮演」,不擅长「协作」
早期 Agent 产品的竞争焦点,往往是谁家的 system prompt 更像专家、谁家人格切换更丝滑。你把「资深架构师」「毒舌 Code Reviewer」「温柔 PM」写成段落,模型确实能在一次对话里切换语气——这叫单 Agent 角色扮演(Single-Agent Role-Playing)。
它的优势很明显:部署简单、链路短、调试时只有一条 trace。Cursor、Claude Code、各类 ChatGPT 自定义 GPT,在 2024–2025 年把这条路走到了极致。
瓶颈也同样清晰:
- 上下文污染——调研笔记、代码 diff、测试日志挤在同一窗口,后面的步骤被前面的噪声带偏。
- 责任模糊——出错了说不清是「规划错了」还是「执行错了」,很难只重跑其中一个环节。
- 并行度为零——模型再强,一次也只能顺着一个思路往下推;真实团队里却常有多人同时查资料、写模块、跑用例。
- 安全边界难拆——你不希望「写代码的 Agent」和「操作生产库的 Agent」共用同一套工具权限,单 prompt 很难做细粒度隔离。
所以当任务从「回答一个问题」变成「交付一个可合并的 PR」,继续加厚 prompt 的收益会急剧下降。这不是模型退步,而是问题形态变成了工程问题——需要分工、握手机制和状态交接,而不是更好的形容词。
多智能体时代:从「一人千面」到「握手协议」
多智能体协作(Multi-Agent Collaborative Role-Playing)换了一个隐喻:不再是同一个演员换面具,而是台上多个角色,各演各的,靠剧本和导演衔接。每个 Agent 有窄而深的职责——Planner 只拆任务,Coder 只改指定目录,Reviewer 只读 diff 不给「顺手改两行」的权限。
它们之间靠三类东西对齐:
- 共享状态——计划、文件树快照、测试结果、待办列表,存在图状态或 Memory Store 里,而不是散落在聊天里。
- 结构化交接——上一步输出 JSON / patch / checklist,下一步只消费 schema 合法的字段;避免「请参考上文」这种不可执行的衔接。
- 终止与仲裁——何时算完成、何时升级给人、何时回滚,由 Evaluator 或规则节点决定,而不是让最后一个 Agent 自己说「好了」。
我们在内部 PoC 里把「全能客服」拆成 Intent Router、FAQ Retriever、Ticket Writer、Escalation Guard 四个节点后,误发内部术语的事故归零——不是因为模型换了,而是 Escalation Guard 根本没有「对客户说话」的工具权限。
搞清单 Agent 内部:ReAct 与系统分层
在拆团队之前,先把单个 Agent 的内脏看清楚。2026 年主流工程实践(无论 LangChain、OpenAI Agents SDK 还是 Cursor)背后都是类似的骨架:
从上到下读这张图:
- 指令层——System Prompt、
AGENTS.md、Skills 把「用户目标」翻译成可执行约束。Skills 本质是可复用的子程序,还没有拆成独立 Agent 时的中间形态。 - ReAct 循环——Reason → Tool → Observe。模型推理、调用 Bash / Browser / MCP / Search,读回结果再推理。这是单 Agent 的「心跳」。
- 工具层与执行环境——Filesystem、Git、Sandbox 决定 Agent 能碰什么。MCP(Model Context Protocol)在 2026 年已是事实标准:工具一次接入,多个 Agent 可共享。
- 确定性约束——Hooks、Middleware、Evaluator 在循环外兜底:禁止删库、强制跑测试、对输出做 schema 校验。
- 状态与记忆——Plan、Logs、Memory Store 回灌 ReAct,让下一步推理站在「世界真实状态」上,而不是幻觉里的进度。
多智能体并不是抛弃这张图,而是把每个框复制多份,用图编排连起来。Planner 节点可能只有指令层 + 轻量 ReAct;Worker 节点才有完整工具层;Judge 节点可能只有 Evaluator,没有写文件权限。
LangGraph 文档把「线程内消息」和「跨线程 store」分开(见 LangGraph Memory 概念),正是在解决:多 Agent 共享的到底是聊天记录,还是可版本化的状态对象。
多智能体流水线:四种常见拓扑
「多智能体」不是越多越好。我们给客户画架构时,先选拓扑,再数人头:
| 拓扑 | 怎么协作 | 典型场景 | 主要风险 |
|---|---|---|---|
| 顺序流水线 | A → B → C,单向交接 | 调研 → 写 spec → 写码 → 单测 | 上游错了全盘重做;要支持 checkpoint |
| 主管-工人 | Supervisor 派单,Worker 回报 | 多文件并行改、Map-Reduce 式代码迁移 | Supervisor 上下文膨胀;工人之间冲突合并 |
| 辩论 / 评审 | Proposal + Critic 多轮 | 安全审计、架构选型、发布说明 | 空转辩论烧 token;要有最大轮次 |
| 人机混合 | 关键节点 interrupt 等人确认 |
生产变更、对外邮件、计费逻辑 | 等待人类时状态要持久化,别绑在某台笔记本上 |
2026 年一个明显趋势是:把确定性步骤踢出 LLM。格式化、lint、跑测试、打 tag,用 CI 脚本或 Hooks 做;Agent 只负责「想」和「写初稿」。我们在云 Mac 上跑 iOS 构建时,Agent 只提交 diff,xcodebuild 永远在隔离 runner 里执行——这和传统软件团队「开发不写生产」是同一逻辑。
LangChain 的 Multi-agent 概念页 把 Supervisor、Swarm、Handoff 都建模成图上的边;选哪种边,比选哪个模型重要得多。
2026 技术栈三层:Harness / Framework / Runtime
当流水线节点超过三个、又要长期跑在 IDE / VPS / Cron 里,「一个 Python 脚本串 prompt」就不够用了。行业里逐渐收敛成三层:
Runtime(LangGraph)——回答「下一步跑哪个节点、状态存哪、失败怎么回滚」。有环、有并行、有持久化 checkpoint,这是多智能体与「链式 prompt」的本质分界。官方 LangGraph 把应用建模成 Pregel 式超级步,适合「团队协作」这种需要全局调度的问题。
Framework(LangChain)——回答「模型怎么调、工具怎么包、RAG 怎么接」。它提供零件,但不强制你怎么组队。很多团队只借用 LangChain 的 tool adapter,编排完全放在 LangGraph 里——这很正常。
Harness(DeepAgents 等)——回答「怎么测、怎么部署、怎么跟人对齐」。包括轨迹评测、A/B prompt、权限沙箱、与 OpenClaw / Cursor 这类宿主集成。2026 年竞争焦点正在从「谁的 Agent 更聪明」转向「谁的 Harness 更敢上生产」。
落地清单:从 Demo 到可维护流水线
下面是我们给内部和试点客户用的最小清单,不绑定厂商:
- 画状态图,不画组织图——节点是「做什么」,边是「交什么数据结构」;避免「小张 Agent、小李 Agent」这种人名节点。
- 每个节点写清输入输出 schema——JSON Schema 或 TypedDict;失败时才能局部重试。
- 工具权限按节点最小化——Reviewer 只读;Deployer 才能碰生产 webhook。
- 全链路 Trace——每个 Agent 的 tool call、token、耗时进同一 trace id,方便回放(对应架构图里的「交付结果 / Trace / 回放」)。
- 记忆分层——线程内消息、跨会话 Memory、向量库 RAG 各管一事;详见 Memory 一文,别让多 Agent 抢写同一条事实。
- 成本预算按节点——Planner 用大模型,Formatter 用小模型或规则;团队账单里「多 Agent」不等于线性涨价。
执行环境也要拆:我们在 VPS 上跑 OpenClaw 网关和轻量节点,把 xcodebuild、浏览器重自动化、大仓库索引丢到云 Mac——避免一台机器又当大脑又当肌肉,合盖就全员下班。这和多 Agent 的分工哲学是一致的,只是落到了硬件层。
你可能还想问
单 Agent 会被淘汰吗?
不会。查资料、改单文件、写邮件这类短链任务,单 Agent + Skills 往往更快更省。多智能体是复杂交付的选项,不是默认配置。
和 MCP、Skills 是什么关系?
MCP 统一工具接口;Skills 是单 Agent 内的能力模块。流水线化后,一个 Skill 可以升级成独立 Agent 节点,工具通过 MCP 共享,避免每个 Agent 各写一遍 GitHub 集成。
OpenClaw 算多智能体吗?
网关本身可以是编排层:不同 channel、Cron、子 agent 配置相当于轻量拓扑。要上完整图编排,通常还要接 LangGraph 或宿主 IDE 的多 Agent 模式,OpenClaw 更适合做 7×24 的执行面与通道。
团队协作时代,执行环境也要团队化
从单 Agent 到多智能体,本质是把不可维护的 prompt 拆成可观测的流水线。Planner、Worker、Reviewer 需要不同的工具权限、不同的运行时、不同的失败策略——再往后一步,就是网关在 VPS、重构建在云 Mac、记忆在 vault 的物理分工。
VPSSpark 提供的云 Mac mini M4,适合承接流水线里「重工具、长编译、浏览器自动化」的 Worker 节点;Linux VPS 则适合 OpenClaw 网关与轻量 Cron。模型变聪明不会自动让交付变稳,架构先团队化,算力再跟上,才是 2026 年更划算的路径。
若你在搭第一条多 Agent 流水线,欢迎先看 Mac 云主机方案 把构建节点从笔记本上卸下来,或从 首页 了解套餐。单 Agent 时代练的是 prompt;多智能体时代练的是分工、握手与回放——后者才是工程团队熟的那套语言。