WWDC à 1 h du matin : factures cloud en hausse, IA on-device gratuite

Ce que vous cherchez probablement :

Pourquoi les APIs OpenAI / Anthropic ont-elles soudainement augmenté ?
Les Foundation Models de WWDC 2026 sont-ils vraiment « gratuits » ?
Un modèle on-device 3B peut-il remplacer GPT / Claude ?
En tant que développeur iOS, miser sur Apple ou rester sur les LLM cloud ?
Comment s'en sort-on financièrement avec GitHub Copilot en facturation par token ?

Il est 1 h du matin, heure du Pacifique : Craig Federighi parle de « Privacy-First Intelligence » sur scène. Cette même semaine, ta facture Claude Code a probablement augmenté de 35 % en silence à cause d'un nouveau tokenizer, et le prix de l'API GPT-5.5 a tout simplement doublé. Ce n'est pas une coïncidence — en juin 2026, la vraie question pour les développeurs n'est plus « faut-il intégrer l'IA ? » mais « quelle courbe de facturation accepte-t-on ? »

WWDC 2026 a mis le framework Foundation Models sous les projecteurs : inférence on-device sans coût de token, pas d'API Key, données qui ne quittent pas l'appareil ; Xcode 27 pousse même la complétion multiligne de code sur Apple Silicon local. Dans le même temps, les acteurs cloud ont enchaîné les hausses entre avril et juin : API flagship OpenAI doublée, Anthropic gonfle la consommation réelle via un nouveau tokenizer, GitHub Copilot bascule vers une facturation à la consommation le 1er juin.

D'un côté, une inférence on-device gratuite ; de l'autre, des prix cloud qui s'envolent — où se positionner ? La réponse n'est pas binaire. La vraie question, c'est sur quelle couche chaque feature doit tourner, et si ta structure de coûts suit le rythme de ton produit.

1 · À gauche : la « vague de hausses cachées » du cloud IA

En ne regardant que les pages tarifaires, on pourrait se dire « ce n'est pas si grave ». Mais ce printemps 2026, les augmentations se cachent à trois endroits.

1.1 Le prix de liste double directement : GPT-5.5

Le 23 avril, OpenAI lance GPT-5.5. Le tarif API passe de GPT-5.4 à $2,50 / $15 (par million de tokens input / output) à $5 / $30 — doublement dans les deux sens. Pour les équipes qui font déjà tourner des boucles d'agents en production, ce n'est pas « un modèle plus puissant » : c'est le même volume de travail qui coûte deux fois plus cher.

1.2 Même tarif, facture plus lourde : le tokenizer d'Opus 4.7

Anthropic publie Claude Opus 4.7 le 16 avril avec des tarifs officiellement inchangés ($5 / $25 par million de tokens). Mais le nouveau tokenizer génère jusqu'à 35 % de tokens supplémentaires sur le même texte ; les tests indépendants en contexte de code constatent une consommation réelle de 1,32× à 1,47×. Le tarif n'a pas bougé — le compteur tourne plus vite.

1.3 Les outils de dev rejoignent la facture token : GitHub Copilot

Au 1er juin, GitHub Copilot bascule vers un modèle de facturation à la consommation de tokens. Le modèle mental « $10/mois en illimité, autant de complétions qu'on veut » disparaît — chaque suggestion inline, chaque échange de chat est désormais lié à la consommation d'inférence réelle.

×2

Prix API GPT-5.5

+35%

Opus 4.7, même prompt

2,5×

Débit API OpenAI (5 mois)

Changement	Présenté comme	En réalité
GPT-5.5 API	Nouveau flagship plus puissant	Input/output : prix ×2 dans les deux sens
Opus 4.7	Tarif inchangé	Même prompt génère +35 % de tokens
Copilot	Toujours en abonnement	Facturation à la consommation dès juin
Abonnements Agent	$20–$200/mois	Dépassement → plein tarif API

La logique du côté gauche est limpide : les grands modèles cloud sont des actifs lourds — calcul, électricité, datacenters ont un coût. Quand un Agent transforme « une requête » en « dix tours de boucle », les plateformes doivent resserrer le compteur.

2 · À droite : le « repas gratuit » offert par WWDC 2026

La keynote était moins spectaculaire que Liquid Glass — mais pour qui écrit en Swift, Foundation Models est peut-être l'annonce avec le meilleur ROI de l'année.

2.1 Foundation Models : trois lignes de Swift, zéro token facturé

Apple déploie un modèle de langage d'environ 3 milliards de paramètres directement sur l'appareil, exposé aux développeurs via le framework FoundationModels :

Swift · Foundation Models

import FoundationModels

                let session = LanguageModelSession()
                let response = try await session.respond(to: "Résume ce compte-rendu en trois points d'action")

Pas d'API Key requise
Pas de réseau nécessaire (chemin 100 % on-device)
Coût d'inférence par appel ≈ $0
Les données utilisateur ne quittent pas l'appareil

WWDC 2026 a également ouvert : Private Cloud Compute, intégration de modèles tiers / open source, compréhension visuelle, le CLI fm, un SDK Python, et l'open-source du framework lui-même.

2.2 Xcode 27 : les complétions passent en local

Xcode 27 introduit des complétions prédictives multilignes basées sur Apple Intelligence, tournant entièrement en local sur Apple Silicon — sans round-trip cloud. C'est la réponse la plus directe au discours Cursor / Copilot — mais la réponse est « on déplace l'inférence sur ton Mac », pas « on baisse les prix ».

2.3 Les limites du côté droit (Apple est honnête là-dessus)

Adapté à l'on-device	Pas adapté à l'on-device
Classification, résumé, extraction structurée	Génération de code complexe
Faible latence (50–200 ms)	Maths / questions factuelles précises
Données sensibles (santé, finances)	Grand contexte, inférence multimodale lourde
Haute fréquence, déclenché à chaque interaction	Recherche web en temps réel

Les contraintes matérielles sont réelles : iPhone 15 Pro minimum, iPad ou Mac à puce M, et l'utilisateur doit avoir activé Apple Intelligence. Le graceful fallback n'est pas optionnel — c'est une protection contre les mauvaises notes et les rejets en révision.

3 · L'enjeu réel : pas Apple vs. OpenAI, mais deux modèles économiques

Fig. 1 · Deux économies IA : facturation au token vs. coût matériel unique

LLM cloudpar token · O(n) croît avec les utilisateurs

Foundation Models on-deviceCoût marginal zéro · limité par le NPU

Décision du développeurRoutage par tâche, pas par camp

Juin 2026 est un moment charnière parce que les deux courbes se retournent en même temps face aux développeurs : à gauche, les outils cloud qu'on utilise déjà coûtent plus cher ; à droite, Apple a déployé gratuitement sur les appareils une couche d'intelligence suffisante, avec un framework officiel en prime.

Idée centrale

« Choisir un camp » est une fausse question. La vraie question : sur quelle couche — L0 (on-device, instantané) à L3 (agent cloud) — chaque feature IA de ton app doit-elle tourner ?

4 · Framework de décision : quatre couches, pas deux camps

4.1 Couche tâche : d'abord classifier, ensuite choisir le modèle

Couche	Tâches typiques	Chemin recommandé
L0 · On-device instantané	Résumé, tagging, classification d'intention, extraction de formulaire	Foundation Models on-device
L1 · On-device + vision	Compréhension d'image, lecture de reçus, estimation calorique	Vision on-device + FM
L2 · Cloud respectueux des données	Analyse de longs documents, raisonnement complexe, scénarios PCC	Private Cloud Compute
L3 · Open-domain / Agent	Agent de code, bots multi-plateformes, retrieval en temps réel	API cloud (GPT / Claude)

La règle est simple : ce qui peut se résoudre en L0/L1 ne devrait pas aller par défaut en L3. Une feature qui appelle un LLM cloud à chaque frappe de clavier détruira les marges à 100 000 DAU ; la même feature on-device n'ajoute presque rien à la facture après le lancement.

4.2 Couche appareil : chemin principal + fallback

Requête utilisateur → Apple Intelligence disponible ? → FM on-device (L0/L1) ; sinon → la tâche nécessite une inférence forte ? → API cloud ou PCC ; sinon → dégrader vers un moteur de règles ou afficher « Cette fonctionnalité nécessite un appareil plus récent ». Le fallback n'est pas optionnel — c'est une protection contre les mauvaises notes et les rejets en review.

4.3 Couche outillage : Xcode en local + Agent dans le cloud — deux budgets séparés

Écriture de code : privilégier les complétions locales Xcode 27 ; Cursor / Claude Code réservés au refactoring multi-fichiers et au debug complexe.
Tests / builds : les features IA on-device nécessitent validation sur vrai appareil et en CI. Un Cloud Mac en environnement stable avec Xcode 27 / iOS 26 SDK figé évite le problème classique « ça tourne en local, mais la version du simulateur CI ne correspond pas ». Voir aussi : La CI est morte — GitHub ne l'a pas encore réalisé.

4.4 Couche facturation : deux tableaux

Tableau A · Cloud : développement Agent via API Claude, abonnements Copilot/Cursor, API de production — croissance linéaire avec l'usage. Tableau B · On-device : coût fixe des machines de dev/test + inférence FM après lancement ≈ $0 de coût marginal. Quand la pente du tableau A dépasse celle des revenus, tout feature pouvant descendre dans le tableau B mérite un PoC immédiat après WWDC.

5 · Trois profils de développeurs — leur bilan honnête

5.1 Développeur iOS indépendant : priorité à droite

Choisir une seule feature L0 (résumé de notes, tri de boîte de réception) à implémenter avec Foundation Models. Mettre clairement dans la description App Store : « Tourne sur ton appareil, aucune donnée envoyée. » Fallback sur règles simples pour les anciens appareils. Les APIs cloud restent pour son propre workflow de développement.

5.2 Petite équipe / B2B : hybride, avec tendance PCC

Foundation Models on-device règle les contraintes de data residency ; les analyses complexes passent par Private Cloud Compute ; seuls les agents open-domain multi-plateformes utilisent OpenAI / Anthropic par défaut. Leçon des hausses de tokenizer : les contrats doivent inclure un plafond mensuel sur un corpus de prompts de référence — pas seulement un prix par million de tokens.

5.3 Gros utilisateur d'agents : difficile de réduire à gauche, on-device comme soupape

Sous-tâches simples (messages de commit, résumés de logs) en local ou on-device ; plafonner les boucles d'agents avec max retry / max token ; builds macOS sur un Cloud Mac stable — évite que l'agent brûle des tokens cloud en attendant un runner surchargé.

6 · FAQ

L'« on-device gratuit » n'est-il pas juste du marketing ?

L'inférence ne te coûte vraiment aucun token — mais le coût se cache dans les prérequis matériels. Pour un développeur, « gratuit » signifie ici : coût marginal d'inférence ≈ 0, pas « coût total nul ».

Un modèle on-device 3B suffit-il pour de vraies features IA ?

Pour de l'IA étroite, oui : résumé, classification, extraction, transformation de texte court. Pour un assistant généraliste, non. Philosophie produit : « petit modèle pour petites tâches ».

Les prix cloud vont-ils encore augmenter ?

Vu l'offre et la demande au Q2 2026 : très probablement oui. Lier son chemin critique à une seule API cloud est un risque d'architecture — pas seulement un risque de coût.

Faut-il abandonner Claude / GPT immédiatement ?

Non. Ce qui vaut la peine maintenant : créer un tableau feature × routage de modèle et identifier ce qui peut migrer vers Foundation Models en Q3. La migration est progressive — choisir un camp est une position extrême.

Quel est le lien avec VPSSpark / Cloud Mac ?

L'IA on-device change l'endroit où l'inférence se fait dans l'app. Cloud Mac résout comment on build, teste et signe ces apps de façon stable. La première semaine après WWDC, ce qui compte plus que changer de modèle, c'est figer l'environnement de build pour que « ça tourne on-device » soit reproductible en CI.

Conclusion : quel camp choisir ?

Choisir les couches, pas les camps.

À gauche (cloud) : cher, mais puissant ; adapté aux agents, à l'open-domain, au multi-plateforme — maîtriser la consommation, ne pas en faire l'option par défaut.
À droite (on-device) : coût marginal nul, confidentialité claire, faible latence ; adapté aux tâches embarquées, haute fréquence, périmètre étroit — accepter les limites de capacité et de couverture matérielle.

La chose la plus utile à faire dans les 30 prochains jours : lister tous les points d'appel LLM dans ton produit et attribuer à chacun un niveau L0–L3. Tout ce qui peut descendre d'un niveau, le faire descendre — ce niveau, c'est peut-être la différence de marge du second semestre 2026.