Вы, вероятно, ищете ответ на один из этих вопросов:
- Почему API OpenAI / Anthropic внезапно так подорожали?
- Foundation Models с WWDC 2026 — это действительно «бесплатно»?
- Способна ли on-device модель на 3B параметров заменить GPT / Claude?
- Делать ставку на Apple или продолжать использовать облачные LLM?
- Как теперь считать расходы на GitHub Copilot с пообменной тарификацией?
Час ночи по тихоокеанскому времени: Крейг Федериги рассказывает со сцены о «Privacy-First Intelligence». В ту же неделю ваш счёт за Claude Code незаметно вырос на 35% из-за нового токенизатора, а API GPT-5.5 попросту удвоился в цене. Это не совпадение — в июне 2026 года для разработчика вопрос стоит уже не «подключать ли ИИ?», а «к какой кривой биллинга себя привязывать?»
WWDC 2026 вывел фреймворк Foundation Models на первый план: инференс прямо на устройстве без платы за токены, без API-ключа, данные не покидают устройство; Xcode 27 переносит многострочное дополнение кода на локальный Apple Silicon. Параллельно облачный лагерь с апреля по июнь поднял цены несколько раз подряд: флагманский API OpenAI удвоен, Anthropic новым токенизатором накручивает фактический расход, GitHub Copilot с 1 июня переходит на поштучный учёт токенов.
С одной стороны — бесплатный on-device инференс, с другой — лавинообразный рост облачных тарифов. На чью сторону встать? Это ложная дилемма. Правильный вопрос звучит иначе: на каком уровне архитектуры должна работать каждая конкретная фича, и не опережают ли расходы темп роста выручки.
1 · Слева: «скрытая волна удорожания» облачного ИИ
Если смотреть только на прайс-листы, кажется: «не так уж страшно». Но весной 2026 подорожание спрятано в трёх местах.
1.1 Цена удваивается напрямую: GPT-5.5
23 апреля OpenAI выпустила GPT-5.5. Тариф API вырос с GPT-5.4's $2,50 / $15 (за миллион токенов на входе / выходе) до $5 / $30 — двукратный рост в обоих направлениях. Для команд, у которых агентские циклы уже крутятся в продакшне, это не «мы получили более мощную модель» — это та же самая работа обходится в два раза дороже.
1.2 Тариф не изменился — счёт вырос: токенизатор Opus 4.7
16 апреля Anthropic выпустила Claude Opus 4.7 с официально неизменным тарифом ($5 / $25 за миллион токенов). Но новый токенизатор генерирует из того же текста до 35% больше токенов; независимые тесты на задачах программирования показывают фактический расход в 1,32×–1,47×. Прайс не двигался — счётчик закрутился быстрее.
1.3 Dev-инструменты тоже попали на токенный счётчик: GitHub Copilot
С 1 июня GitHub Copilot перешёл на модель тарификации по потреблению токенов. Ментальная установка «$10/месяц всё включено, сколько угодно подсказок» больше не работает — каждый inline-сабжест, каждый чат-запрос теперь связан с реальным расходом на инференс.
| Изменение | Подано как | На самом деле |
|---|---|---|
| GPT-5.5 API | Новый флагман, мощнее | Input/output: тариф ×2 в обоих направлениях |
| Opus 4.7 | Тариф не изменился | Тот же промпт генерирует на +35% больше токенов |
| Copilot | По-прежнему подписка | С июня — учёт токенов |
| Agent-подписки | $20–$200/мес. | Перерасход — по полному API-тарифу |
Логика левой стороны прозрачна: облачные LLM — капиталоёмкий бизнес; вычисления, электроэнергия, дата-центры стоят денег. Когда агент превращает «один запрос» в «десять итераций цикла», провайдерам нужно крутить счётчик быстрее.
2 · Справа: «бесплатный обед» от WWDC 2026
Кейнот был менее зрелищным, чем Liquid Glass, — но для тех, кто пишет на Swift, Foundation Models, пожалуй, самый выгодный анонс года по соотношению затрат и результата.
2.1 Foundation Models: три строки Swift, ноль токенного биллинга
Apple разворачивает языковую модель примерно на 3 миллиарда параметров прямо на устройстве и предоставляет её разработчикам через фреймворк FoundationModels:
import FoundationModels
let session = LanguageModelSession()
let response = try await session.respond(to: "Преврати эту запись совещания в три конкретных задачи")
- API-ключ не нужен
- Сеть не нужна (полностью on-device)
- Стоимость инференса за вызов ≈ $0
- Данные пользователя не покидают устройство
WWDC 2026 также открыл: Private Cloud Compute, интеграцию сторонних / open-source моделей, визуальное понимание, CLI fm, Python SDK и открытый исходный код самого фреймворка.
2.2 Xcode 27: автодополнение становится локальным
Xcode 27 вводит многострочное предиктивное дополнение на базе Apple Intelligence — работает полностью локально на Apple Silicon без обращения к облаку. Это самый прямой ответ на нарратив Cursor / Copilot — но ответ звучит как «мы переносим инференс на ваш Mac», а не «мы снижаем цены».
2.3 Ограничения правой стороны (Apple не скрывает их)
| Подходит для on-device | Не подходит для on-device |
|---|---|
| Классификация, суммаризация, структурированное извлечение | Сложная генерация кода |
| Низкая задержка (50–200 мс) | Математика / точные фактические вопросы |
| Чувствительные данные (здоровье, финансы) | Большой контекст, тяжёлый мультимодальный инференс |
| Высокочастотные вызовы на каждое действие пользователя | Поиск в интернете в реальном времени |
Требования к железу реальны: iPhone 15 Pro и новее, iPad / Mac с чипом M, пользователь должен включить Apple Intelligence. Graceful fallback — не опция, это защита от плохих отзывов и отклонений при ревью.
3 · Суть противостояния: не Apple vs. OpenAI, а две модели экономики
Рис. 1 · Две экономики ИИ: оплата за токены против разовых затрат на железо
Июнь 2026 — переломный момент именно потому, что обе кривые впервые одновременно развернулись к разработчику: слева то, чем вы уже пользуетесь, подорожало; справа Apple бесплатно развернула достаточно мощный слой интеллекта прямо на устройствах, снабдив его официальным фреймворком.
4 · Система принятия решений: четыре уровня вместо двух лагерей
4.1 Уровень задач: сначала классифицировать, потом выбирать модель
| Уровень | Типичные задачи | Рекомендуемый путь |
|---|---|---|
| L0 · On-device, мгновенно | Суммаризация текста, теггирование, классификация намерений, извлечение из форм | Foundation Models on-device |
| L1 · On-device + зрение | Анализ изображений, распознавание чеков, оценка калорийности | On-Device Vision + FM |
| L2 · В облако с соблюдением приватности | Анализ длинных документов, сложное рассуждение, сценарии PCC | Private Cloud Compute |
| L3 · Open-domain / Agent | Код-агенты, кросс-платформенные боты, live-retrieval | Облачный API (GPT / Claude) |
Правило простое: то, что решается на L0/L1, не должно по умолчанию идти на L3. Фича, которая обращается к облачному LLM при каждом нажатии клавиши, съест всю маржу при 100 000 DAU; та же фича on-device не прибавляет к счёту почти ничего после релиза.
4.2 Уровень устройства: основной путь + fallback
Запрос пользователя → Apple Intelligence доступна? → FM on-device (L0/L1); иначе → задача требует мощного инференса? → облачный API или PCC; иначе → откат на движок правил или сообщение «Эта функция требует более нового устройства». Fallback — не опциональная доработка, а защита от негативных отзывов и отклонений в App Store.
4.3 Уровень инструментов: Xcode локально + Agent в облаке — раздельные статьи бюджета
- Написание кода: приоритет — локальные дополнения Xcode 27; Cursor / Claude Code — для рефакторинга между файлами и сложной отладки.
- Тесты / сборки: on-device ИИ-фичи требуют проверки на реальном железе и в CI. Cloud Mac в роли прогретой среды с зафиксированным Xcode 27 / iOS 26 SDK устраняет классическую проблему «локально работает, в CI версия симулятора не та». Подробнее: CI умер — GitHub ещё не заметил.
4.4 Уровень биллинга: две таблицы
Таблица A · Облако: разработка агентов через Claude API, подписки Copilot/Cursor, production-API — расходы растут линейно с нагрузкой. Таблица B · On-device: фиксированные затраты на dev/test-машины + инференс FM после релиза ≈ $0 переменных расходов. Как только наклон таблицы A начинает превышать наклон выручки, любая фича, которую можно перевести в таблицу B, заслуживает быстрого PoC сразу после WWDC.
5 · Три типа разработчиков — честные итоги
5.1 Инди iOS-разработчик: приоритет правой стороне
Выбрать одну L0-фичу (суммаризация заметок, сортировка входящих) и реализовать её через Foundation Models. В описании App Store чётко указать: «Работает на вашем устройстве, данные не передаются». Fallback на простые правила для старых устройств. Облачные API остаются для собственного процесса разработки.
5.2 Небольшая команда / B2B: гибрид с уклоном в PCC
On-device FM решает требования по data residency; сложная аналитика — через Private Cloud Compute; облачные OpenAI / Anthropic по умолчанию только для кросс-платформенных open-domain агентов. Урок от повышения цен на токены: в контрактах прописывать верхний предел ежемесячных расходов на эталонный набор промптов, а не только цену за миллион токенов.
5.3 Тяжёлый пользователь агентов: слева не сэкономить, справа — как предохранительный клапан
Простые подзадачи (commit-сообщения, саммари логов) переводить на локальный или on-device инференс; ограничивать агентские циклы по max retry / max token; сборки macOS держать на стабильном Cloud Mac — иначе агент сжигает облачные токены, ожидая очереди на перегруженном раннере.
6 · FAQ
«Бесплатный on-device» — это просто маркетинг?
Инференс действительно не тарифицируется токенами — но стоимость спрятана в требованиях к железу. Для разработчика «бесплатно» здесь означает: предельные расходы на инференс ≈ $0, а не «нулевые совокупные затраты».
3B on-device модели хватит для реальных ИИ-фич?
Для узкого ИИ — да: суммаризация, классификация, извлечение, короткие текстовые преобразования. Для универсального ассистента — нет. Принцип продуктового дизайна: «маленькая модель для маленьких задач».
Облачные цены будут расти дальше?
Судя по соотношению спроса и предложения во 2-м квартале 2026 года — почти наверняка да. Жёсткая привязка критического пути к единственному облачному API — это архитектурный риск, а не только финансовый.
Нужно ли немедленно отказаться от Claude / GPT?
Нет. Что имеет смысл сделать прямо сейчас: составить таблицу «фича × маршрутизация модели» и пометить то, что можно мигрировать на Foundation Models в Q3. Миграция — постепенный процесс; выбор лагеря — крайняя позиция.
Какое отношение это имеет к VPSSpark / Cloud Mac?
On-device ИИ меняет то, где в приложении происходит инференс. Cloud Mac решает задачу — как стабильно собирать, тестировать и подписывать эти приложения. В первую неделю после WWDC важнее не менять модель, а зафиксировать среду сборки — тогда «работает on-device» будет воспроизводимо в CI.
Итог: какую сторону выбрать?
Выбирать уровни, а не лагеря.
- Слева (облако): дорого, но мощно; подходит для агентов, open-domain задач, кросс-платформы — контролировать расход, не делать его опцией по умолчанию.
- Справа (on-device): нулевые переменные расходы, чёткие гарантии приватности, низкая задержка; подходит для встроенных, высокочастотных, узких задач — принять ограничения по возможностям и покрытию устройств.
Самое полезное дело на ближайшие 30 дней: выписать все точки вызова LLM в продукте и присвоить каждой уровень L0–L3. Всё, что можно опустить на уровень ниже — опускать. Этот уровень может оказаться разницей в марже во второй половине 2026 года.
После WWDC: сначала зафиксировать среду Xcode, потом думать о маршрутизации моделей
Если вы интегрируете Foundation Models в приложение и одновременно нуждаетесь в стабильной среде сборки Xcode 27 / iOS 26, VPSSpark Cloud Mac служит macOS-подложкой для разработки и CI — сначала стабилизируйте инструментальную цепочку, потом оптимизируйте маршрутизацию моделей.
Посмотреть тарифы Cloud Mac — чтобы on-device ИИ-фичи воспроизводились в CI.