いつ単一からマルチへ移行すべき？

明確な分担・並列探索・独立レビューが必要で、1つのpromptに3つ以上の異質な役割が載っているとき。

マルチエージェントは必ず高コスト？

総トークンは増え得るが、小モデル実行＋大モデル計画＋キャッシュと決定論ステップでコスト・遅延は制御しやすい。

単一エージェントからマルチエージェント・パイプラインへ：2026年のAI開発はチーム協業の時代

昨年、SaaS ベンダーの「万能カスタマーサポート Agent」を構築しました。1 本の system prompt にプリセールス・ポストセールス・見積・障害対応の 4 人格と 20 ページの FAQ を詰め込んだ構成です。初週は好評。3 週目には返金チケット内でアップセルを追いかけ、障害手順の内部コードネームを顧客に送信しました。

誰もモデルの能力不足とは言いませんでした。問題は単純で、4 つの席を 1 人に押し付けたのです。2026 年の業界の見立ては固まりつつあります——単一エージェントは陳腐化しませんが、境界が明確でツールチェーンが短いタスク向き。調査→仕様→実装→テスト→レビュー→リリースのように多段階・並列・相互修正が要るなら、マルチエージェント・パイプラインを真剣に設計すべきです。

本稿は Agent 入門を省き、OpenClaw・IDE Agent・社内 PoC で見た移行パスに絞ります。記憶とコストが気になる方は、Agent Memory とチャット履歴、チーム Agent コストも併読してください。

1→N

役割は prompt 仮面から独立ノードへ

ReAct

単一エージェントの推論ループ

3 層

Harness / Framework / Runtime

単一エージェント時代：「演技」は得意、「協業」は苦手

初期の Agent 製品は system prompt の専門性と人格切替の滑らかさで競いました。「シニアアーキテクト」「辛口レビュアー」「優しい PM」を段落に書けば、1 スレッドで口調は変わります——これが単一エージェントの役割演技です。

利点は明確：デプロイが簡単、トレースが 1 本、デバッグしやすい。Cursor、Claude Code、カスタム GPT が 2024–2025 年にこの路線を極めました。

天井も同様に明確です：

コンテキスト汚染——調査メモ、diff、テストログが同一ウィンドウに混在し、後段が前段のノイズに引きずられる。
責任の曖昧さ——失敗時に「計画ミス」か「実行ミス」か切り分けられず、1 ステージだけ再実行できない。
並列度ゼロ——モデルは 1 本の思考線のまま。現場では調査・実装・テストが同時進行することが多い。
権限分離が難しい——「コードを書く Agent」と「本番 DB を触る Agent」に同一ツール権限は渡したくない。単一 prompt では細かく分けにくい。

タスクが「質問に答える」から「マージ可能な PR を出す」に変わると、prompt を厚くするリターンは急減します。モデルが弱くなったのではなく、問題の形がエンジニアリング課題になった——分担・引き継ぎ・リプレイが要るのです。

マルチエージェント時代：「一人千面」から握手プロトコルへ

マルチエージェント協調は比喩を変えます。同じ俳優が仮面を替えるのではなく、舞台上の複数役が台本と演出でつながる。Planner は分解だけ、Coder は指定ディレクトリだけ、Reviewer は diff 読み取り専用——「ついでに 2 行直す」権限は与えない。

整合は 3 要素で取ります：

共有状態——計画、ファイルツリー、テスト結果、TODO はグラフ状態か Memory Store に置き、チャットに散らさない。
構造化ハンドオフ——前段は JSON / patch / checklist を出力し、次段はスキーマ合法フィールドだけ消費。「上文参照」は実行不能なので避ける。
終了と仲裁——完了・人へのエスカレーション・ロールバックは Evaluator かルールノードが決め、最後の Agent の「できました」に任せない。

社内 PoC で万能サポートを Intent Router、FAQ Retriever、Ticket Writer、Escalation Guard に分割したら、顧客向け内部用語の誤送信はゼロ——モデルを替えたのではなく、Escalation Guard に顧客発話ツールが無かったからです。

マルチに移行すべきか

人間が 30 分で線形 3 ステップのチェックリストを回せるなら、単一 Agent + 良いツールで十分なことが多い。並列探索、対抗的レビュー、セッション跨ぎ状態が要るなら、まずパイプライン図を描く。

単一エージェントの内側：ReAct と層構造

チームに分ける前に、1 体の内臓を把握します。LangChain、OpenAI Agents SDK、Cursor いずれも 2026 年の骨格は似ています：

AIエージェント・アーキテクチャ — 単一エージェントの全体像：指示層→ReAct→ツール、制約と状態メモリがループを閉じる。

図を上から読みます：

指示層——System Prompt、AGENTS.md、Skills が目標を実行可能な制約に翻訳。Skills は独立 Agent 化前の再利用サブルーチン。
ReAct ループ——Reason → Tool → Observe。Bash / Browser / MCP / Search を呼び、結果を読んで再推論。単一 Agent の心拍。
ツール層——Filesystem、Git、Sandbox が触れる範囲を決める。MCP は 2026 年の事実上の標準。
確定性制約——Hooks、Middleware、Evaluator がループ外で削除禁止・テスト強制・スキーマ検証を担当。
状態とメモリ——Plan、Logs、Memory Store が次の ReAct に真の世界状態を渡す。

マルチエージェントはこの図を捨てず、各ボックスを複製してグラフで接続します。LangGraph はスレッド内メッセージとスレッド間 store を分離（Memory 概念）——共有するのはチャットか版管理可能な状態か、をはっきりさせるためです。

パイプライン：よく使う 4 トポロジ

「多ければ良い」ではありません。まずトポロジ、次に人数：

トポロジ	協業の仕方	典型シーン	主なリスク
順序パイプライン	A → B → C 一方向	調査 → spec → 実装 → 単体テスト	上流ミスで全やり直し。checkpoint 必須
スーパーバイザー型	監督が配分、ワーカーが報告	複数ファイル並列変更、Map-Reduce 移行	監督のコンテキスト肥大、ワーカー間コンフリクト
討論・レビュー	提案 + 批評の多ラウンド	セキュリティ監査、アーキ選定、リリースノート	空回りで token 消費。最大ラウンドを決める
人間参加	要所で `interrupt` 承認待ち	本番変更、対外メール、課金ロジック	待機中の状態は永続化。ノート 1 台に依存しない

2026 年の明確な流れ：決定論ステップを LLM から外す。整形、lint、テスト、タグ付けは CI か Hooks。Agent は思考と初稿。クラウド Mac で iOS ビルドする際も Agent は diff 提出のみ、xcodebuild は隔離 runner——従来チームの「開発は本番に触らない」と同じ論理です。

LangChain のマルチエージェント概念は Supervisor、Swarm、Handoff をグラフの辺としてモデル化——辺の選び方がモデル選びより重要です。

2026 技術スタック 3 層

ノードが 3 超え、IDE / VPS / Cron で常時稼働するなら「Python で prompt 連結」は足りません。3 層に収束しています：

エージェント3層スタック — 下から LangGraph（状態・編排）、LangChain（部品）、Harness（評価・デプロイ・運用）。

Runtime（LangGraph）——次にどのノードか、状態の保存先、失敗時のロールバック。LangGraph は Pregel 型スーパーステップで、チーム協業向きのグローバルスケジューリングに向きます。

Framework（LangChain）——モデル呼び出し、ツール包装、RAG。部品は提供するが編成は強制しない。LangChain は adapter だけ借り、編成は LangGraph だけ——普通にあります。

Harness（DeepAgents 等）——テスト、デプロイ、人との整合。軌跡評価、prompt A/B、権限サンドボックス、OpenClaw / Cursor 統合。2026 年の競争軸は「賢さ」から「本番に出せる Harness」へ。

選定順の提案

まず Runtime がトポロジ（順序 / 並列 / 中断）を表現できるか確認し、次に Framework で MCP とモデル、最後に Harness で観測とデリバリ。逆だとデモは 1 週で、本番で「人の承認待ち」がグラフに載らない、がよくある結末です。

落地チェックリスト

社内・パイロット向けの最小リスト（ベンダー非依存）：

組織図ではなく状態図——ノードは「何をするか」、辺は「何を渡すか」。
入出力スキーマを明文化——JSON Schema 等で部分リトライ可能に。
ノードごとにツール最小権限——Reviewer は読み取りのみ。
同一 trace id——tool call、token、レイテンシを一括リプレイ。
メモリ階層化——スレッド内、セッション跨ぎ、RAG を分離。
ノード別コスト予算——Planner は大モデル、Formatter は小モデルかルール。

実行環境も分ける：VPS で OpenClaw ゲートウェイと軽量ノード、xcodebuild と重いブラウザ自動化はクラウド Mac——蓋を閉じたら全員退勤、を避けます。ハードウェア層での分担哲学です。

よくある落とし穴

5 Agent が同一「万能ツールキット」＝未分割。Supervisor が肥大化すると単一より重い。Evaluator なしの討論トポロジは無限互賛。対策：ツール分割、ラウンド上限、決定論ゲート。

よくある質問

単一 Agent は淘汰される？

いいえ。調査、単一ファイル編集、メール下書きなど短いチェーンは単一 + Skills が速く安いことが多い。マルチは複雑なデリバリ向けの選択肢です。

MCP と Skills の関係は？

MCP はツール標準化、Skills は単一 Agent 内モジュール。パイプライン化すると Skill が独立ノードに昇格し、MCP でツール共有できます。

OpenClaw はマルチエージェント？

ゲートウェイが軽量オーケストレーション層になり得ます。完全なグラフ編成には LangGraph 等が加わることが多く、OpenClaw は 7×24 実行面に強みがあります。