去年我們替一家 SaaS 客戶搭建「全能客服 Agent」:同一條 system prompt 塞了售前、售後、報價、排障四套人格,還附二十頁 FAQ。上線第一週好評如潮;第三週開始,它把售後工單當成售前線索追單,又把排障步驟裡的內部代號直接發給客戶。
覆盤時沒人怪模型「不夠聰明」。問題很樸素:我們把該四個崗位的活,硬塞給了一個打工人。 2026 年業界越來越一致的判斷是——單 Agent 並沒有過時,但它更適合邊界清晰、工具鏈短的任務;一旦進入「調研 → 寫碼 → 測試 → 評審 → 發布」這類多階段、可並行、需要互相糾錯的流程,就該認真考慮多智慧體流水線(Multi-agent Pipeline)。
這篇文章不講百科,只講我們在 OpenClaw、IDE Agent 和內部 PoC 裡看到的架構遷移路徑。若你已在糾結記憶與成本,可對照 Agent Memory 與聊天紀錄 和 團隊 Agent 成本帳單。
單 Agent 時代:擅長「扮演」,不擅長「協作」
早期 Agent 產品的競爭焦點,往往是誰家的 system prompt 更像專家、誰家人格切換更絲滑。你把「資深架構師」「毒舌 Code Reviewer」「溫柔 PM」寫成段落,模型確實能在一次對話裡切換語氣——這叫單 Agent 角色扮演(Single-Agent Role-Playing)。
它的優勢很明顯:部署簡單、鏈路短、除錯時只有一條 trace。Cursor、Claude Code、各類自訂 GPT,在 2024–2025 年把這條路走到了極致。
瓶頸也同樣清晰:
- 上下文污染——調研筆記、程式碼 diff、測試日誌擠在同一視窗,後面的步驟被前面的雜訊帶偏。
- 責任模糊——出錯了說不清是「規劃錯了」還是「執行錯了」,很難只重跑其中一個環節。
- 並行度為零——模型再強,一次也只能順著一個思路往下推;真實團隊裡卻常有多人同時查資料、寫模組、跑用例。
- 安全邊界難拆——你不希望「寫程式碼的 Agent」和「操作生產庫的 Agent」共用同一套工具權限,單 prompt 很難做細粒度隔離。
所以當任務從「回答一個問題」變成「交付一個可合併的 PR」,繼續加厚 prompt 的收益會急劇下降。這不是模型退步,而是問題形態變成了工程問題——需要分工、握手機制和狀態交接,而不是更好的形容詞。
多智慧體時代:從「一人千面」到「握手協定」
多智慧體協作(Multi-Agent Collaborative Role-Playing)換了一個隱喻:不再是同一個演員換面具,而是台上多個角色,各演各的,靠劇本和導演銜接。每個 Agent 有窄而深的職責——Planner 只拆任務,Coder 只改指定目錄,Reviewer 只讀 diff 不給「順手改兩行」的權限。
它們之間靠三類東西對齊:
- 共享狀態——計劃、檔案樹快照、測試結果、待辦列表,存在圖狀態或 Memory Store 裡,而不是散落在聊天裡。
- 結構化交接——上一步輸出 JSON / patch / checklist,下一步只消費 schema 合法的欄位;避免「請參考上文」這種不可執行的銜接。
- 終止與仲裁——何時算完成、何時升級給人、何時回滾,由 Evaluator 或規則節點決定,而不是讓最後一個 Agent 自己說「好了」。
我們在內部 PoC 裡把「全能客服」拆成 Intent Router、FAQ Retriever、Ticket Writer、Escalation Guard 四個節點後,誤發內部術語的事故歸零——不是因為模型換了,而是 Escalation Guard 根本沒有「對客戶說話」的工具權限。
搞清單 Agent 內部:ReAct 與系統分層
在拆團隊之前,先把單個 Agent 的內臟看清楚。2026 年主流工程實踐背後都是類似的骨架:
從上到下讀這張圖:
- 指令層——System Prompt、
AGENTS.md、Skills 把「使用者目標」翻譯成可執行約束。Skills 本質是可複用的子程式,還沒拆成獨立 Agent 時的中間形態。 - ReAct 迴圈——Reason → Tool → Observe。模型推理、呼叫 Bash / Browser / MCP / Search,讀回結果再推理。這是單 Agent 的「心跳」。
- 工具層與執行環境——Filesystem、Git、Sandbox 決定 Agent 能碰什麼。MCP(Model Context Protocol)在 2026 年已是事實標準。
- 確定性約束——Hooks、Middleware、Evaluator 在迴圈外兜底:禁止刪庫、強制跑測試、對輸出做 schema 校驗。
- 狀態與記憶——Plan、Logs、Memory Store 回灌 ReAct,讓下一步推理站在「世界真實狀態」上,而不是幻覺裡的進度。
多智慧體並不是拋棄這張圖,而是把每個框複製多份,用圖編排連起來。LangGraph 文件把「執行緒內訊息」和「跨執行緒 store」分開(見 LangGraph Memory 概念),正是在解決:多 Agent 共享的到底是聊天紀錄,還是可版本化的狀態物件。
多智慧體流水線:四種常見拓撲
「多智慧體」不是越多越好。我們給客戶畫架構時,先選拓撲,再數人頭:
| 拓撲 | 怎麼協作 | 典型場景 | 主要風險 |
|---|---|---|---|
| 順序流水線 | A → B → C,單向交接 | 調研 → 寫 spec → 寫碼 → 單測 | 上游錯了全盤重做;要支援 checkpoint |
| 主管-工人 | Supervisor 派單,Worker 回報 | 多檔案並行改、Map-Reduce 式程式碼遷移 | Supervisor 上下文膨脹;工人之間衝突合併 |
| 辯論 / 評審 | Proposal + Critic 多輪 | 安全審計、架構選型、發布說明 | 空轉辯論燒 token;要有最大輪次 |
| 人機混合 | 關鍵節點 interrupt 等人確認 |
生產變更、對外郵件、計費邏輯 | 等待人類時狀態要持久化,別綁在某台筆電上 |
2026 年一個明顯趨勢是:把確定性步驟踢出 LLM。格式化、lint、跑測試、打 tag,用 CI 腳本或 Hooks 做;Agent 只負責「想」和「寫初稿」。我們在雲 Mac 上跑 iOS 建置時,Agent 只提交 diff,xcodebuild 永遠在隔離 runner 裡執行——這和傳統軟體團隊「開發不寫生產」是同一邏輯。
LangChain 的 Multi-agent 概念頁 把 Supervisor、Swarm、Handoff 都建模成圖上的邊;選哪種邊,比選哪個模型重要得多。
2026 技術棧三層:Harness / Framework / Runtime
當流水線節點超過三個、又要長期跑在 IDE / VPS / Cron 裡,「一個 Python 腳本串 prompt」就不夠用了。行業裡逐漸收斂成三層:
Runtime(LangGraph)——回答「下一步跑哪個節點、狀態存哪、失敗怎麼回滾」。有環、有並行、有持久化 checkpoint,這是多智慧體與「鏈式 prompt」的本質分界。官方 LangGraph 把應用建模成 Pregel 式超級步,適合「團隊協作」這種需要全域調度的問題。
Framework(LangChain)——回答「模型怎麼調、工具怎麼包、RAG 怎麼接」。它提供零件,但不強制你怎麼組隊。很多團隊只借用 LangChain 的 tool adapter,編排完全放在 LangGraph 裡——這很正常。
Harness(DeepAgents 等)——回答「怎麼測、怎麼部署、怎麼跟人對齊」。包括軌跡評測、A/B prompt、權限沙箱、與 OpenClaw / Cursor 這類宿主整合。2026 年競爭焦點正在從「誰的 Agent 更聰明」轉向「誰的 Harness 更敢上生產」。
落地清單:從 Demo 到可維護流水線
下面是我們給內部和試點客戶用的最小清單,不綁定廠商:
- 畫狀態圖,不畫組織圖——節點是「做什麼」,邊是「交什麼資料結構」;避免「小張 Agent、小李 Agent」這種人名節點。
- 每個節點寫清輸入輸出 schema——JSON Schema 或 TypedDict;失敗時才能局部重試。
- 工具權限按節點最小化——Reviewer 只讀;Deployer 才能碰生產 webhook。
- 全鏈路 Trace——每個 Agent 的 tool call、token、耗時進同一 trace id,方便回放。
- 記憶分層——執行緒內訊息、跨會話 Memory、向量庫 RAG 各管一事;別讓多 Agent 搶寫同一條事實。
- 成本預算按節點——Planner 用大模型,Formatter 用小模型或規則;團隊帳單裡「多 Agent」不等於線性漲價。
執行環境也要拆:我們在 VPS 上跑 OpenClaw 閘道器和輕量節點,把 xcodebuild、瀏覽器重自動化、大倉庫索引丟到雲 Mac——避免一台機器又當大腦又當肌肉,合蓋就全員下班。這和多 Agent 的分工哲學是一致的,只是落到了硬體層。
你可能還想問
單 Agent 會被淘汰嗎?
不會。查資料、改單檔案、寫郵件這類短鏈任務,單 Agent + Skills 往往更快更省。多智慧體是複雜交付的選項,不是預設配置。
和 MCP、Skills 是什麼關係?
MCP 統一工具介面;Skills 是單 Agent 內的能力模組。流水線化後,一個 Skill 可以升級成獨立 Agent 節點,工具透過 MCP 共享,避免每個 Agent 各寫一遍 GitHub 整合。
OpenClaw 算多智慧體嗎?
閘道本身可以是編排層:不同 channel、Cron、子 agent 設定相當於輕量拓撲。要上完整圖編排,通常還要接 LangGraph 或宿主 IDE 的多 Agent 模式,OpenClaw 更適合做 7×24 的執行面與通道。
團隊協作時代,執行環境也要團隊化
從單 Agent 到多智慧體,本質是把不可維護的 prompt 拆成可觀測的流水線。Planner、Worker、Reviewer 需要不同的工具權限、不同的執行時、不同的失敗策略——再往前一步,就是閘道在 VPS、重建置在雲 Mac、記憶在 vault 的物理分工。
VPSSpark 提供的雲 Mac mini M4,適合承接流水線裡「重工具、長編譯、瀏覽器自動化」的 Worker 節點;Linux VPS 則適合 OpenClaw 閘道與輕量 Cron。模型變聰明不會自動讓交付變穩,架構先團隊化,算力再跟上,才是 2026 年更划算的路徑。
若你在搭第一條多 Agent 流水線,歡迎先看 Mac 雲主機方案 把建置節點從筆電上卸下來,或從 首頁 了解套餐。單 Agent 時代練的是 prompt;多智慧體時代練的是分工、握手與回放——後者才是工程團隊熟的語言。