В 2023 году API GPT-4 стоила около 30 долларов за миллион входных токенов. К концу 2024 сопоставимые модели опустились ниже 3 долларов. В 2026 за Haiku- и mini-класс часто платят меньше доллара. По прайс-листу кажется, что ИИ подешевел — и можно расслабиться.
Но когда открываешь счёт OpenRouter или Anthropic за прошлый месяц, картина другая: сумма выросла. Это массовая история в командах из СНГ — от удалённых стартапов до аутсорс-разработки: цена токена падает, общий чек растёт. Это не баг биллинга и не скрытая наценка. Это экономический закон 160-летней давности — парадокс Джевонса — в эпоху LLM.
Для российских и СНГ-команд есть практический нюанс: прямой доступ к западным API нестабилен, ключи размазаны по ноутбукам, а без единого шлюза никто не видит, кто и сколько сжёг. Парадокс Джевонса усугубляется хаосом инфраструктуры.
класса GPT-4 (2023→2026)
объёма токенов
на разработчика
Парадокс Джевонса: дешевле — значит больше потребляем
В 1865 году Уильям Стэнли Джевонс заметил: чем эффективнее паровые машины сжигают уголь, тем больше угля потребляет Британия в целом. Эффективность снижает цену единицы — и открывает применения, которые раньше были нерентабельны. Фабрики с одной линией запускают три; новые отрасли подключаются к пару.
Урок: экономия на единице не равна экономии в сумме. Когда ресурс дешевеет или используется эффективнее, суммарный спрос часто растёт.
С токенами LLM схема та же. Каждый ценовой порог снимает барьер:
- При 30 $/M: ИИ только для саммари встреч.
- При 3 $/M: авто-ревью кода в CI.
- При 0,30 $/M: фоновые агенты на логи, тикеты, почасовые сканы.
- При 0,03 $/M: весь workflow на постоянке — и никто не выключает.
Каждое подешевление — не приглашение экономить, а разрешение использовать смелее. Абсолютный счёт растёт, пока падает цена за токен. Для команд в РФ/СНГ без централизованного шлюза это ещё и вопрос безопасности: мастер-ключи на личных машинах — риск утечки и неконтролируемого расхода.
Три структурных драйвера роста счёта
Парадокс объясняет «почему». Чтобы управлять деньгами, нужно знать, куда они уходят. В типичных dev-настройках — три механизма, независимо от того, идёте ли вы через OpenRouter, напрямую в Anthropic или смешанный стек. Прозрачные цены не спасают, если объём и контекст раздуваются.
Драйвер 1: взрыв объёма — от редких промптов к круглосуточной работе
Два года назад ИИ был реактивным: вопрос — ответ. Сегодня параллельно крутятся Cursor, OpenClaw, свои скрипты и CI-агенты. ИИ стал фоновым сервисом: ночью анализ пайплайна, днём комментарии к PR, на созвоне — тихие саммари репозитория.
Частота вызовов прыгает с десятков до тысяч в день. Даже при цене в десять раз ниже месячный чек легко удваивается.
| Фаза использования | Вызовов/день | Токенов на вызов | Токенов в месяц |
|---|---|---|---|
| Q&A (2023) | 30 | ~500 | ~450K |
| Code review в CI (2024) | 200 | ~3 000 | ~18M |
| Резидентные агенты (2025+) | 2 000 | ~8 000 | ~480M |
Последняя строка: с 450K до 480M — рост в тысячу раз. Даже 90 % падение цены с 2023 года оставляет счёт на порядки выше исходного. Для распределённых команд без self-hosted gateway это ещё и «слепая зона»: каждый разработчик тянет API со своего ноутбука — общий spend никто не видит.
Драйвер 2: инфляция контекста — каждый запрос тяжелее
Второй, тихий фактор — не число вызовов, а их вес. В 2023 в 4K context помещались пара раундов чата. В 2026 норма — 200K–1M. В prompt летят целые репозитории, PDF и полная история — «модель же тянет».
Плюс режимы extended thinking: внутренние «мыслительные» токены тарифицируются и часто превышают видимый ответ. «Глубокий анализ» может стоить в 5–10 раз дороже ожиданий. Имеет смысл маршрутизировать такие режимы явно — не по умолчанию на каждый cron.
Драйвер 3: мультипликатор агентов — токены не складываются, они умножаются
Самый агрессивный драйвер — агентные цепочки. Одна пользовательская команда запускает целую серию — не один API-вызов.
Рис. 1 · Внутренняя цепочка «простого» агентного запроса
Одно действие пользователя — семь–восемь тарифицируемых вызовов LLM, каждый с тяжёлым контекстом. Мультипликатор: один клик — восемь строк в биллинге.
Особенно опасны агенты без чёткого условия остановки. Ошибка → retry → цикл. Два агента, ждущих друг друга, жгут токены и CPU параллельно.
Разобрать счёт: трезвая арифметика
Допустим: 10 агентных задач в день, по 8 вызовов LLM, по 10 000 токенов (с контекстом).
| Параметр | Значение |
|---|---|
| Агентных задач в день | 10 |
| LLM-вызовов на задачу (мультипликатор) | 8 |
| Токенов на вызов | 10 000 |
| Токенов в месяц | 10 × 8 × 10 000 × 30 = 24M |
| Класс Sonnet (~3 $/M) | ~72 $/мес (один разработчик) |
| Премиум-модель (~15 $/M) | ~360 $/мес |
72–360 $ на человека — без команды и без выходных пиков. Десять разработчиков или удвоение задач — сумма умножается. Размер счёта определяется длиной цепочки мультипликаторов, а не фактом «мы используем ИИ».
Сделать счёт управляемым — не меньше, а осознаннее
Джевонс не призывал отказываться — он описывал структуру. Больше токенов может означать больше ценности, если видно, что к чему. Для команд в СНГ практичный ответ — свой шлюз на постоянной машине: один endpoint, виртуальные ключи, лимиты, логи. Три рычага, от простого к сложному:
Рычаг 1: многоуровневый роутинг — дешёвые модели на объём
Не каждая задача требует Opus. Проверка синтаксиса и проектирование архитектуры — разные уровни; один и тот же модель на всё — завышенный счёт.
На практике хватает трёх уровней:
- Форматирование, классификация, короткие саммари: Haiku / GPT-4o-mini (~0,15–0,30 $/M).
- Код, многошаговый reasoning, документация: Sonnet / GPT-4o (~3–5 $/M).
- Архитектура, глубокий дебаг, extended thinking: Opus / o3 — только по запросу.
В LiteLLM задайте алиасы (fast / smart / deep); клиенты маршрутизируют по типу задачи. Мастер-ключи и логика — на шлюзе, не на ноутбуках. Пошагово — в практическом гайде Cloud Mac + OpenRouter.
Рычаг 2: бюджетные предохранители — отключить до сгорания
Роутинг выбирает модель; лимиты ловят runaway-агентов. Минимум — два слоя.
- Жёсткий credit cap upstream: месячный потолок в OpenRouter или Anthropic — API отказывает, а не молча крутит дальше.
- Virtual Keys со spend cap: на каждый клиент (Cursor, OpenClaw, скрипт) — свой ключ и свой бюджет на self-hosted gateway.
curl -X POST http://127.0.0.1:4000/key/generate \
-H "Authorization: Bearer $LITELLM_MASTER_KEY" \
-H "Content-Type: application/json" \
-d '{
"key_alias": "cursor-dev",
"models": ["fast", "smart"],
"max_budget": 20,
"budget_duration": "1mo",
"metadata": {"tool": "cursor", "env": "dev"}
}'
Месячный потолок 20 $, только fast и smart — при превышении 429, мастер-ключ цел. Это минимальная жизнеспособная governance для команды: один сервер, один шлюз, разработчики получают только виртуальные ключи через SSH-туннель или Tailscale — мастер не покидает машину.
Рычаг 3: наблюдаемость — без картины нет экономии
Многие сюрпризы — в конце месяца: агент в пятницу тихо сжёг 50 $, задача давно завершена. Без spend в реальном времени невозможно ни FinOps, ни ответ на вопрос «кто куда ходил с API».
- Dashboard LiteLLM: на
/ui— spend, RPS и latency по Virtual Key. - Ежедневные алерты: cron + SQLite-запрос к
litellm_verificationtoken, порог → Telegram или Slack. - Сверка с upstream: раз в неделю LiteLLM vs консоль OpenRouter — расхождение >10 % значит обход шлюза (прямые ключи на ноутбуках).
Настоящий вопрос не «как сэкономить»
Джевонс не осуждал эффективность — он показал, что спрос растёт вместе с ней. Больше токенов может быть больше ценности, если отделить осознанные вложения от случайного расхода.
- Дают ли дополнительные токены измеримую отдачу?
- Сколько счёта — план, сколько — побочный эффект?
- Может ли команда ответить на это в любой момент — без Excel на коленке?
Цель не «меньше токенов», а каждый токен в нужном месте. Роутинг, предохранители и прозрачность — чтобы рост счёта был «хорошим», а self-hosted gateway давал единую точку контроля для распределённой команды.
FAQ
Парадокс Джевонса вечен для ИИ? Пока каждое подешевление открывает новые сценарии — и reasoning может заменять всё больше ручного труда — да. Потолок пока не виден.
Хватит ли «перейти на дешёвую модель»? Краткосрочно — да. Среднесрочно сэкономленный бюджет уйдёт в больше задач — снова на кривую Джевонса. Устойчиво работают лимиты и видимость, не вечный downgrade.
Можно ли убрать мультипликатор агентов? Нет, но ограничить: max шагов, кэш результатов, правила оркестратора вместо LLM где возможно.
С ростом команды хуже? После трёх человек без gateway — ключи разбросаны, общий spend неизвестен. Virtual Keys и лимиты на пользователя становятся обязательными; миграция позже дороже раннего развёртывания шлюза на Cloud Mac.
Шлюз, роутинг и предохранители на постоянном Cloud Mac
Парадокс никуда не денется — но можно вставить слой контроля: многоуровневый роутинг, Virtual Keys с потолком, логи для FinOps. Нужна всегда доступная control plane, где мастер-ключи не лежат на ноутбуках разработчиков.
VPSSpark Cloud Mac mini M4: LiteLLM через launchd, секреты только в серверном .env, клиенты — с Virtual Keys через туннель. Низкое энергопотребление в простое для gateway 7×24; macOS с Gatekeeper, SIP и FileVault для долгоживущих API-ключей — проще объяснить команде, чем «ключ в .bashrc на ноуте».
Если токены дешевеют, а счёт растёт: начните с шлюза, который умеет отключаться — смотреть тарифы Cloud Mac VPSSpark и собрать control plane с агентами на одной машине.