WWDC в час ночи: облако дорожает, on-device ИИ — бесплатно

Вы, вероятно, ищете ответ на один из этих вопросов:

Почему API OpenAI / Anthropic внезапно так подорожали?
Foundation Models с WWDC 2026 — это действительно «бесплатно»?
Способна ли on-device модель на 3B параметров заменить GPT / Claude?
Делать ставку на Apple или продолжать использовать облачные LLM?
Как теперь считать расходы на GitHub Copilot с пообменной тарификацией?

Час ночи по тихоокеанскому времени: Крейг Федериги рассказывает со сцены о «Privacy-First Intelligence». В ту же неделю ваш счёт за Claude Code незаметно вырос на 35% из-за нового токенизатора, а API GPT-5.5 попросту удвоился в цене. Это не совпадение — в июне 2026 года для разработчика вопрос стоит уже не «подключать ли ИИ?», а «к какой кривой биллинга себя привязывать?»

WWDC 2026 вывел фреймворк Foundation Models на первый план: инференс прямо на устройстве без платы за токены, без API-ключа, данные не покидают устройство; Xcode 27 переносит многострочное дополнение кода на локальный Apple Silicon. Параллельно облачный лагерь с апреля по июнь поднял цены несколько раз подряд: флагманский API OpenAI удвоен, Anthropic новым токенизатором накручивает фактический расход, GitHub Copilot с 1 июня переходит на поштучный учёт токенов.

С одной стороны — бесплатный on-device инференс, с другой — лавинообразный рост облачных тарифов. На чью сторону встать? Это ложная дилемма. Правильный вопрос звучит иначе: на каком уровне архитектуры должна работать каждая конкретная фича, и не опережают ли расходы темп роста выручки.

1 · Слева: «скрытая волна удорожания» облачного ИИ

Если смотреть только на прайс-листы, кажется: «не так уж страшно». Но весной 2026 подорожание спрятано в трёх местах.

1.1 Цена удваивается напрямую: GPT-5.5

23 апреля OpenAI выпустила GPT-5.5. Тариф API вырос с GPT-5.4's $2,50 / $15 (за миллион токенов на входе / выходе) до $5 / $30 — двукратный рост в обоих направлениях. Для команд, у которых агентские циклы уже крутятся в продакшне, это не «мы получили более мощную модель» — это та же самая работа обходится в два раза дороже.

1.2 Тариф не изменился — счёт вырос: токенизатор Opus 4.7

16 апреля Anthropic выпустила Claude Opus 4.7 с официально неизменным тарифом ($5 / $25 за миллион токенов). Но новый токенизатор генерирует из того же текста до 35% больше токенов; независимые тесты на задачах программирования показывают фактический расход в 1,32×–1,47×. Прайс не двигался — счётчик закрутился быстрее.

1.3 Dev-инструменты тоже попали на токенный счётчик: GitHub Copilot

С 1 июня GitHub Copilot перешёл на модель тарификации по потреблению токенов. Ментальная установка «$10/месяц всё включено, сколько угодно подсказок» больше не работает — каждый inline-сабжест, каждый чат-запрос теперь связан с реальным расходом на инференс.

×2

Прайс API GPT-5.5

+35%

Opus 4.7 на том же промпте

2,5×

Пропускная способность API OpenAI (5 мес.)

Изменение	Подано как	На самом деле
GPT-5.5 API	Новый флагман, мощнее	Input/output: тариф ×2 в обоих направлениях
Opus 4.7	Тариф не изменился	Тот же промпт генерирует на +35% больше токенов
Copilot	По-прежнему подписка	С июня — учёт токенов
Agent-подписки	$20–$200/мес.	Перерасход — по полному API-тарифу

Логика левой стороны прозрачна: облачные LLM — капиталоёмкий бизнес; вычисления, электроэнергия, дата-центры стоят денег. Когда агент превращает «один запрос» в «десять итераций цикла», провайдерам нужно крутить счётчик быстрее.

2 · Справа: «бесплатный обед» от WWDC 2026

Кейнот был менее зрелищным, чем Liquid Glass, — но для тех, кто пишет на Swift, Foundation Models, пожалуй, самый выгодный анонс года по соотношению затрат и результата.

2.1 Foundation Models: три строки Swift, ноль токенного биллинга

Apple разворачивает языковую модель примерно на 3 миллиарда параметров прямо на устройстве и предоставляет её разработчикам через фреймворк FoundationModels:

Swift · Foundation Models

import FoundationModels

                let session = LanguageModelSession()
                let response = try await session.respond(to: "Преврати эту запись совещания в три конкретных задачи")

API-ключ не нужен
Сеть не нужна (полностью on-device)
Стоимость инференса за вызов ≈ $0
Данные пользователя не покидают устройство

WWDC 2026 также открыл: Private Cloud Compute, интеграцию сторонних / open-source моделей, визуальное понимание, CLI fm, Python SDK и открытый исходный код самого фреймворка.

2.2 Xcode 27: автодополнение становится локальным

Xcode 27 вводит многострочное предиктивное дополнение на базе Apple Intelligence — работает полностью локально на Apple Silicon без обращения к облаку. Это самый прямой ответ на нарратив Cursor / Copilot — но ответ звучит как «мы переносим инференс на ваш Mac», а не «мы снижаем цены».

2.3 Ограничения правой стороны (Apple не скрывает их)

Подходит для on-device	Не подходит для on-device
Классификация, суммаризация, структурированное извлечение	Сложная генерация кода
Низкая задержка (50–200 мс)	Математика / точные фактические вопросы
Чувствительные данные (здоровье, финансы)	Большой контекст, тяжёлый мультимодальный инференс
Высокочастотные вызовы на каждое действие пользователя	Поиск в интернете в реальном времени

Требования к железу реальны: iPhone 15 Pro и новее, iPad / Mac с чипом M, пользователь должен включить Apple Intelligence. Graceful fallback — не опция, это защита от плохих отзывов и отклонений при ревью.

3 · Суть противостояния: не Apple vs. OpenAI, а две модели экономики

Рис. 1 · Две экономики ИИ: оплата за токены против разовых затрат на железо

Облачные LLMза токен · O(n) растёт вместе с аудиторией

On-Device Foundation Modelsнулевые переменные расходы · ограничены NPU

Решение разработчикамаршрутизация по задаче, без «выбора стороны»

Июнь 2026 — переломный момент именно потому, что обе кривые впервые одновременно развернулись к разработчику: слева то, чем вы уже пользуетесь, подорожало; справа Apple бесплатно развернула достаточно мощный слой интеллекта прямо на устройствах, снабдив его официальным фреймворком.

Ключевая мысль

«Выбирать сторону» — ложная постановка вопроса. Правильный вопрос: на какой уровень — от L0 (on-device, мгновенно) до L3 (облачный агент) — должна попасть каждая конкретная ИИ-фича в вашем приложении?

4 · Система принятия решений: четыре уровня вместо двух лагерей

4.1 Уровень задач: сначала классифицировать, потом выбирать модель

Уровень	Типичные задачи	Рекомендуемый путь
L0 · On-device, мгновенно	Суммаризация текста, теггирование, классификация намерений, извлечение из форм	Foundation Models on-device
L1 · On-device + зрение	Анализ изображений, распознавание чеков, оценка калорийности	On-Device Vision + FM
L2 · В облако с соблюдением приватности	Анализ длинных документов, сложное рассуждение, сценарии PCC	Private Cloud Compute
L3 · Open-domain / Agent	Код-агенты, кросс-платформенные боты, live-retrieval	Облачный API (GPT / Claude)

Правило простое: то, что решается на L0/L1, не должно по умолчанию идти на L3. Фича, которая обращается к облачному LLM при каждом нажатии клавиши, съест всю маржу при 100 000 DAU; та же фича on-device не прибавляет к счёту почти ничего после релиза.

4.2 Уровень устройства: основной путь + fallback

Запрос пользователя → Apple Intelligence доступна? → FM on-device (L0/L1); иначе → задача требует мощного инференса? → облачный API или PCC; иначе → откат на движок правил или сообщение «Эта функция требует более нового устройства». Fallback — не опциональная доработка, а защита от негативных отзывов и отклонений в App Store.

4.3 Уровень инструментов: Xcode локально + Agent в облаке — раздельные статьи бюджета

Написание кода: приоритет — локальные дополнения Xcode 27; Cursor / Claude Code — для рефакторинга между файлами и сложной отладки.
Тесты / сборки: on-device ИИ-фичи требуют проверки на реальном железе и в CI. Cloud Mac в роли прогретой среды с зафиксированным Xcode 27 / iOS 26 SDK устраняет классическую проблему «локально работает, в CI версия симулятора не та». Подробнее: CI умер — GitHub ещё не заметил.

4.4 Уровень биллинга: две таблицы

Таблица A · Облако: разработка агентов через Claude API, подписки Copilot/Cursor, production-API — расходы растут линейно с нагрузкой. Таблица B · On-device: фиксированные затраты на dev/test-машины + инференс FM после релиза ≈ $0 переменных расходов. Как только наклон таблицы A начинает превышать наклон выручки, любая фича, которую можно перевести в таблицу B, заслуживает быстрого PoC сразу после WWDC.

5 · Три типа разработчиков — честные итоги

5.1 Инди iOS-разработчик: приоритет правой стороне

Выбрать одну L0-фичу (суммаризация заметок, сортировка входящих) и реализовать её через Foundation Models. В описании App Store чётко указать: «Работает на вашем устройстве, данные не передаются». Fallback на простые правила для старых устройств. Облачные API остаются для собственного процесса разработки.

5.2 Небольшая команда / B2B: гибрид с уклоном в PCC

On-device FM решает требования по data residency; сложная аналитика — через Private Cloud Compute; облачные OpenAI / Anthropic по умолчанию только для кросс-платформенных open-domain агентов. Урок от повышения цен на токены: в контрактах прописывать верхний предел ежемесячных расходов на эталонный набор промптов, а не только цену за миллион токенов.

5.3 Тяжёлый пользователь агентов: слева не сэкономить, справа — как предохранительный клапан

Простые подзадачи (commit-сообщения, саммари логов) переводить на локальный или on-device инференс; ограничивать агентские циклы по max retry / max token; сборки macOS держать на стабильном Cloud Mac — иначе агент сжигает облачные токены, ожидая очереди на перегруженном раннере.

6 · FAQ

«Бесплатный on-device» — это просто маркетинг?

Инференс действительно не тарифицируется токенами — но стоимость спрятана в требованиях к железу. Для разработчика «бесплатно» здесь означает: предельные расходы на инференс ≈ $0, а не «нулевые совокупные затраты».

3B on-device модели хватит для реальных ИИ-фич?

Для узкого ИИ — да: суммаризация, классификация, извлечение, короткие текстовые преобразования. Для универсального ассистента — нет. Принцип продуктового дизайна: «маленькая модель для маленьких задач».

Облачные цены будут расти дальше?

Судя по соотношению спроса и предложения во 2-м квартале 2026 года — почти наверняка да. Жёсткая привязка критического пути к единственному облачному API — это архитектурный риск, а не только финансовый.

Нужно ли немедленно отказаться от Claude / GPT?

Нет. Что имеет смысл сделать прямо сейчас: составить таблицу «фича × маршрутизация модели» и пометить то, что можно мигрировать на Foundation Models в Q3. Миграция — постепенный процесс; выбор лагеря — крайняя позиция.

Какое отношение это имеет к VPSSpark / Cloud Mac?

On-device ИИ меняет то, где в приложении происходит инференс. Cloud Mac решает задачу — как стабильно собирать, тестировать и подписывать эти приложения. В первую неделю после WWDC важнее не менять модель, а зафиксировать среду сборки — тогда «работает on-device» будет воспроизводимо в CI.

Итог: какую сторону выбрать?

Выбирать уровни, а не лагеря.

Слева (облако): дорого, но мощно; подходит для агентов, open-domain задач, кросс-платформы — контролировать расход, не делать его опцией по умолчанию.
Справа (on-device): нулевые переменные расходы, чёткие гарантии приватности, низкая задержка; подходит для встроенных, высокочастотных, узких задач — принять ограничения по возможностям и покрытию устройств.

Самое полезное дело на ближайшие 30 дней: выписать все точки вызова LLM в продукте и присвоить каждой уровень L0–L3. Всё, что можно опустить на уровень ниже — опускать. Этот уровень может оказаться разницей в марже во второй половине 2026 года.