深夜の WWDC 分岐点：クラウド値上げ vs 無料オンデバイス AI

よく検索されている質問

OpenAI / Anthropic の API 料金が突然高くなったのはなぜ？
WWDC 2026 の Foundation Models は本当に「無料」なのか？
3B 端末モデルは GPT / Claude の代替になれるのか？
iOS 開発者は Apple に乗るべきか、クラウド LLM を使い続けるべきか？
GitHub Copilot が token 課金に移行したら、コストはどう変わる？

JST 深夜 2 時を回った頃、Craig Federighi が「プライバシー優先のインテリジェンス」を語るキーノートをリアルタイムで追っていた方も多いだろう。その同じ週、Claude Code の請求が新 tokenizer の影響で静かに 35% 増え、GPT-5.5 の API 定価は一夜にして 2 倍になった。これは偶然ではない——2026 年 6 月、開発者が直面しているのは「AI を使うか否か」ではなく、「どの課金モデルの上でプロダクトを作るか」という問いだ。

WWDC 2026 は Foundation Models フレームワークを正式に公開した。端末上での推論は token 費ゼロ、API Key 不要、データはデバイス外に出ない。Xcode 27 ではマルチライン補完が Apple Silicon 上でローカル動作するようになった。一方クラウド側は、春先から 6 月にかけて相次ぐ値上げを断行している——OpenAI のフラッグシップ API は倍額、Anthropic は新 tokenizer で実質的な使用量を押し上げ、GitHub Copilot は 6 月 1 日から token 計量課金へ移行した。

片や無料の端末推論、片や止まらない値上げ——どちらを選ぶべきか？答えは二択ではない。本当に問うべきは、「各機能をどの層で実行するか」と「請求構造がプロダクトのペースについてきているか」だ。

1 · 左側：クラウド AI の「見えない値上げ潮」

価格表だけ眺めると「それほど変わっていない」と感じるかもしれない。だが 2026 年の春季ラウンドでは、値上げは三箇所に巧みに潜んでいた。

1.1 定価が 2 倍に：GPT-5.5

4 月 23 日、OpenAI が GPT-5.5 をリリース。API 定価は GPT-5.4 の $2.50 / $15（百万 input / output tokens）から $5 / $30 へ——両方向で一気に 2 倍になった。本番環境で Agent ループを回しているチームにとって、これは「より強いモデルへのアップグレード」ではなく、同じワークロードの推論コストが ×2 になったことを意味する。

1.2 定価そのまま、請求は重く：Opus 4.7 の tokenizer

Anthropic が 4 月 16 日にリリースした Claude Opus 4.7 は、公示レートは Opus 4 と同じ（$5 / $25 per million tokens）だ。しかし新しい tokenizer は同一テキストに対して最大約 35% 多くの token を生成する。コーディング用途での独立測定では実際の使用量が 1.32×〜1.47× に増加したケースも報告されている。定価は変わらず、メーターの進みが速くなった。

1.3 開発ツールも token テーブルへ：GitHub Copilot

6 月 1 日、GitHub Copilot が新しい token 計量課金モデルへ移行した。「月 $10 のサブスクで補完し放題」という感覚はもはや過去のもの——inline suggestion も chat も、推論量に応じてカウントされるようになった。

×2

GPT-5.5 API 定価

+35%

Opus 4.7 同 prompt token 数

2.5×

OpenAI API スループット（5 ヶ月）

変更点	表向き	実態
GPT-5.5 API	新フラッグシップ登場	input/output 定価 ×2
Opus 4.7	レート変わらず	同 prompt で token 数 +35% 程度
Copilot	サブスクのまま	6 月から token 計量へ
Agent サブスク	$20〜$200/月	超過・乱用は API 通常料金

左側の論理は明快だ——クラウド大規模モデルは重資産であり、計算資源・電力・データセンターはすべてコストがかかる。Agent が「1 問 1 答」を「10 ターンのループ」に変えたとき、プラットフォームはメーターを締めるしかない。

2 · 右側：WWDC 2026 が差し出す「フリーランチ」

Keynote は Liquid Glass ほど派手ではなかったかもしれないが、Swift を書く開発者にとって Foundation Models はおそらく今年 ROI が最も高い発表だ。

2.1 Foundation Models：3 行の Swift、token 費ゼロ

Apple はデバイス上に約 30 億パラメータの言語モデルを搭載し、FoundationModels フレームワークで開発者に公開した：

Swift · Foundation Models

import FoundationModels

                let session = LanguageModelSession()
                let response = try await session.respond(to: "この会議メモを3つのアクションアイテムに要約して")

API Key 不要
ネットワーク不要（端末内完結パス）
1 回の推論コスト ≈ $0
ユーザーデータはデバイス外に出ない

WWDC 2026 はさらに Private Cloud Compute、サードパーティ / オープンソースモデルの統合、視覚理解、fm CLI、Python SDK、そしてフレームワーク自体のオープンソース化も発表した。

2.2 Xcode 27：補完もローカルへ

Xcode 27 には Apple Intelligence ベースのマルチライン予測補完が導入され、Apple Silicon 上でローカル実行される——クラウドへのラウンドトリップは発生しない。これは Cursor / Copilot の存在感への最も直接的な回答だが、「価格を下げる」ではなく「推論をあなたの Mac に移す」という形での応答だ。

2.3 右側の限界（Apple が正直に語った部分）

端末向き	端末に向かない
分類・要約・構造化抽出	複雑なコード生成
低レイテンシ対話（50〜200ms）	数学・精確な事実 QA
プライバシー敏感な場面（健康・財務）	大コンテキスト・重いマルチモーダル推論
高頻度・ユーザー操作のたびに発火	リアルタイム検索が必要な場面

デバイス要件も現実だ：iPhone 15 Pro 以降、M シリーズの iPad/Mac、かつユーザーが Apple Intelligence を有効にしていること。Graceful fallback は必須だ。

3 · 対決の本質：Apple vs OpenAI ではなく、二つの経済学

図 1 · 二つの AI 経済学：token 課金 vs デバイス買い切り

クラウド大規模モデルtoken 課金 · O(n) でユーザー数に比例

端末 Foundation Models限界費用ゼロ · 能力は NPU に制約

開発者の意思決定タスク別レイヤー分けルーティング、陣営選択ではない

2026 年 6 月がこれほど「重要な転換点」に感じられるのは、二つの曲線が初めて同時に開発者の目の前で折れ曲がったからだ。左では使っていたクラウドツールが値上がりした、右では Apple がデバイス上に十分なレベルのインテリジェンスを無料で敷き詰め、正式なフレームワークまで渡してきた。

核心的な見方

「どちらを選ぶか」は擬似問題だ。本当に問うべきは、App 内の各 AI 機能が L0（端末即時）から L3（クラウド Agent）のどのレイヤーに属するかだ。

4 · 意思決定フレームワーク：陣営選択ではなく、四層ルーティング

4.1 タスク層：まず分類、次にモデル選択

レイヤー	典型タスク	推奨パス
L0 · デバイス内即時	テキスト要約・タグ付け・意図分類・フォーム抽出	Foundation Models 端末推論
L1 · デバイス内 + 視覚	画像理解・レシート解析・栄養推定	端末 Vision + FM
L2 · プライバシー配慮型クラウド	長文書分析・複雑推論・PCC が必要な場面	Private Cloud Compute
L3 · オープンドメイン / Agent	コード Agent・クロスプラットフォーム bot・検索が必要	クラウド API（GPT / Claude）

ルールはシンプルだ：L0/L1 で解決できるものを L3 に上げない。キーボード入力のたびにクラウド LLM を叩く機能は、DAU 10 万で粗利を食い尽くす。端末側で同じ機能を実装すれば、リリース後の請求はほぼ変わらない。

4.2 デバイス層：メインパス + fallback

ユーザーリクエスト → Apple Intelligence が利用可能か？ → 端末 FM（L0/L1）；そうでなければ → 強い推論が必要か？ → クラウド API または PCC；そうでもなければ → ルールエンジンに降格、あるいは「この機能には新しいデバイスが必要です」と案内。fallback はオプションではなく、審査通過と低評価防止のための必須実装だ。

4.3 ツールチェーン層：Xcode ローカル + Agent クラウド、帳簿を分ける

コードを書く：Xcode 27 ローカル補完を優先；Cursor / Claude Code はクロスファイルリファクタ・複雑なデバッグに残す。
テスト / ビルド：端末 AI 機能も実機と CI での検証が必要。Cloud Mac を Xcode 27 / iOS 26 SDK の固定ウォーム環境として使い、「ローカルでは FM が動くが CI のシミュレータバージョンが違う」というドリフトを防ぐ。参照：「CIは死んだがGitHubはまだ気づいていない」。

4.4 請求層：二つの表

表 A · クラウド：Claude API Agent 開発、Copilot/Cursor サブスク、本番 API——規模に比例して線形に増える。表 B · 端末：開発機・テスト機の固定コスト + FM 推論のリリース後 ≈ $0 限界費用。表 A の傾きが収益の傾きを超えたとき、表 B へ落とせる機能は WWDC 後すぐに PoC を試みる価値がある。

5 · 三者三様の「立ち位置」実録

5.1 個人 iOS 開発者：まず右側から

一つの L0 機能（メモ要約・受信トレイ分類）を Foundation Models で実装する。App Store の説明に「あなたのデバイス上で動作し、データはアップロードされません」と明記する。古いデバイスへの fallback はシンプルなルールで対処。クラウド API は「自分がコードを書くとき」のために取っておく。

5.2 中小チーム / B2B：ハイブリッド、PCC 寄り

端末 FM でデータレジデンシーを解決し、複雑な分析は Private Cloud Compute へ、クロスプラットフォームかつオープンドメインの Agent だけを OpenAI / Anthropic で動かす。tokenizer 値上げの教訓：「百万 token 単価」の固定だけでは不十分で、「同一 prompt セットの月額上限」も契約に明記すること。

5.3 Agent ヘビーユーザー：左側は節約できない、右側を圧力弁に

単純なサブタスク（コミットメッセージ・ログ要約）をローカルまたは端末へ落とす。Agent ループに max retry / max token を設定する。macOS ビルドは安定した Cloud Mac で行い、Agent がキューに詰まった runner の上でクラウド token を燃やしながらコンパイル待ちをするような事態を避ける。

6 · FAQ

「無料端末推論」はマーケティング的な誇張では？

推論に対してあなたに token 費を請求しないのは事実だが、コストはハードウェア要件という形に転嫁されている。開発者にとっての「無料」とは marginal inference cost ≈ 0 のことであり、「総コストがゼロ」ではない。

3B の端末モデルで「AI 機能」と言えるものが作れるか？

要約・分類・抽出・短文書き換えといった narrow AI は十分に作れる。汎用アシスタントは無理だ。プロダクト設計は「小さいモデルに小さい仕事を」という方向で進めるべきだ。

クラウドはさらに値上がりするのか？

2026 年 Q2 の需給状況を見ると、おそらくそうだ。重要なパスを単一クラウド API に縛り付けることは、コストリスクだけでなくアーキテクチャリスクでもある。

今すぐ Claude / GPT の使用を止めるべきか？

その必要はない。今すぐすべきなのは、機能 × モデルルーティング表を一枚描き、Q3 に Foundation Models へ移行できそうなものに印をつけることだ。移行は段階的に、陣営選択は極端だ。

VPSSpark / Cloud Mac とはどう関係するのか？

端末 AI が変えるのは App 内の推論をどこで行うかであり、Cloud Mac が解決するのはそれらの App を安定してビルド・テスト・署名する方法だ。WWDC 翌週に最初にすべきことはモデルの切り替えより開発環境を固定すること——「端末で動く」を CI 上で再現可能にすることだ。

まとめ：開発者はどちらを選ぶのか？

陣営ではなく、レイヤーを選ぶ。

左側（クラウド）：高価だが強力。Agent・オープンドメイン・クロスプラットフォームに適している——使用量をコントロールし、デフォルトにしないこと。
右側（端末）：限界費用ゼロ・プライバシー明確・レイテンシ低い。デバイス内・高頻度・ナロータスクに向いている——能力の境界とデバイスカバレッジを受け入れること。

次の 30 日で最もやる価値がある一つのこと：プロダクト内で「LLM を呼んでいる」すべての箇所をリストアップし、それぞれに L0〜L3 のラベルを貼る。一段下げられるものは、一段下げる——その一段が、2026 年後半の粗利の差になるかもしれない。