Почему счёт за ИИ растёт, хотя токены дешевеют?

В 2023 году API GPT-4 стоила около 30 долларов за миллион входных токенов. К концу 2024 сопоставимые модели опустились ниже 3 долларов. В 2026 за Haiku- и mini-класс часто платят меньше доллара. По прайс-листу кажется, что ИИ подешевел — и можно расслабиться.

Но когда открываешь счёт OpenRouter или Anthropic за прошлый месяц, картина другая: сумма выросла. Это массовая история в командах из СНГ — от удалённых стартапов до аутсорс-разработки: цена токена падает, общий чек растёт. Это не баг биллинга и не скрытая наценка. Это экономический закон 160-летней давности — парадокс Джевонса — в эпоху LLM.

Для российских и СНГ-команд есть практический нюанс: прямой доступ к западным API нестабилен, ключи размазаны по ноутбукам, а без единого шлюза никто не видит, кто и сколько сжёг. Парадокс Джевонса усугубляется хаосом инфраструктуры.

Главный вывод

Когда цена токена падает вдвое, потребление обычно растёт в 3–5 раз. Экономия на единице съедается объёмом — счёт всё равно ползёт вверх.

−97%

Цена токена
класса GPT-4 (2023→2026)

10×

Рост среднего
объёма токенов

3×

Месячный счёт API
на разработчика

Парадокс Джевонса: дешевле — значит больше потребляем

В 1865 году Уильям Стэнли Джевонс заметил: чем эффективнее паровые машины сжигают уголь, тем больше угля потребляет Британия в целом. Эффективность снижает цену единицы — и открывает применения, которые раньше были нерентабельны. Фабрики с одной линией запускают три; новые отрасли подключаются к пару.

Урок: экономия на единице не равна экономии в сумме. Когда ресурс дешевеет или используется эффективнее, суммарный спрос часто растёт.

С токенами LLM схема та же. Каждый ценовой порог снимает барьер:

При 30 $/M: ИИ только для саммари встреч.
При 3 $/M: авто-ревью кода в CI.
При 0,30 $/M: фоновые агенты на логи, тикеты, почасовые сканы.
При 0,03 $/M: весь workflow на постоянке — и никто не выключает.

Каждое подешевление — не приглашение экономить, а разрешение использовать смелее. Абсолютный счёт растёт, пока падает цена за токен. Для команд в РФ/СНГ без централизованного шлюза это ещё и вопрос безопасности: мастер-ключи на личных машинах — риск утечки и неконтролируемого расхода.

Три структурных драйвера роста счёта

Парадокс объясняет «почему». Чтобы управлять деньгами, нужно знать, куда они уходят. В типичных dev-настройках — три механизма, независимо от того, идёте ли вы через OpenRouter, напрямую в Anthropic или смешанный стек. Прозрачные цены не спасают, если объём и контекст раздуваются.

Драйвер 1: взрыв объёма — от редких промптов к круглосуточной работе

Два года назад ИИ был реактивным: вопрос — ответ. Сегодня параллельно крутятся Cursor, OpenClaw, свои скрипты и CI-агенты. ИИ стал фоновым сервисом: ночью анализ пайплайна, днём комментарии к PR, на созвоне — тихие саммари репозитория.

Частота вызовов прыгает с десятков до тысяч в день. Даже при цене в десять раз ниже месячный чек легко удваивается.

Фаза использования	Вызовов/день	Токенов на вызов	Токенов в месяц
Q&A (2023)	30	~500	~450K
Code review в CI (2024)	200	~3 000	~18M
Резидентные агенты (2025+)	2 000	~8 000	~480M

Последняя строка: с 450K до 480M — рост в тысячу раз. Даже 90 % падение цены с 2023 года оставляет счёт на порядки выше исходного. Для распределённых команд без self-hosted gateway это ещё и «слепая зона»: каждый разработчик тянет API со своего ноутбука — общий spend никто не видит.

Драйвер 2: инфляция контекста — каждый запрос тяжелее

Второй, тихий фактор — не число вызовов, а их вес. В 2023 в 4K context помещались пара раундов чата. В 2026 норма — 200K–1M. В prompt летят целые репозитории, PDF и полная история — «модель же тянет».

Скрытая цена контекста

Файл исходников 500 КБ — это примерно 125 000 токенов, больше типичного месяца 2023 года. Если агент тащит полный контекст на каждом шаге, счёт растёт экспоненциально, а не линейно.

Плюс режимы extended thinking: внутренние «мыслительные» токены тарифицируются и часто превышают видимый ответ. «Глубокий анализ» может стоить в 5–10 раз дороже ожиданий. Имеет смысл маршрутизировать такие режимы явно — не по умолчанию на каждый cron.

Драйвер 3: мультипликатор агентов — токены не складываются, они умножаются

Самый агрессивный драйвер — агентные цепочки. Одна пользовательская команда запускает целую серию — не один API-вызов.

Рис. 1 · Внутренняя цепочка «простого» агентного запроса

Пользователь: одна команда«Проверь PR и предложи правки»

ОркестраторДелит на подзадачи → 1× LLM

Суб-агенты ×4Читает код, ищет доки, тесты, комментарий → 4× LLM с полным контекстом

Сборка + retryОркестратор сводит, при ошибке повтор → 2–3× LLM

Одно действие пользователя — семь–восемь тарифицируемых вызовов LLM, каждый с тяжёлым контекстом. Мультипликатор: один клик — восемь строк в биллинге.

Особенно опасны агенты без чёткого условия остановки. Ошибка → retry → цикл. Два агента, ждущих друг друга, жгут токены и CPU параллельно.

Реальный кейс из CI

Команда повесила агента «автофикс flaky-тестов» без лимита попыток. Нестабильный тест за ночь вызвал 2 300 LLM-запросов — счёт около 340 $. Модель была дешёвой; мультипликатор — нет.

Разобрать счёт: трезвая арифметика

Допустим: 10 агентных задач в день, по 8 вызовов LLM, по 10 000 токенов (с контекстом).

Параметр	Значение
Агентных задач в день	10
LLM-вызовов на задачу (мультипликатор)	8
Токенов на вызов	10 000
Токенов в месяц	10 × 8 × 10 000 × 30 = 24M
Класс Sonnet (~3 $/M)	~72 $/мес (один разработчик)
Премиум-модель (~15 $/M)	~360 $/мес

72–360 $ на человека — без команды и без выходных пиков. Десять разработчиков или удвоение задач — сумма умножается. Размер счёта определяется длиной цепочки мультипликаторов, а не фактом «мы используем ИИ».

Сделать счёт управляемым — не меньше, а осознаннее

Джевонс не призывал отказываться — он описывал структуру. Больше токенов может означать больше ценности, если видно, что к чему. Для команд в СНГ практичный ответ — свой шлюз на постоянной машине: один endpoint, виртуальные ключи, лимиты, логи. Три рычага, от простого к сложному:

Рычаг 1: многоуровневый роутинг — дешёвые модели на объём

Не каждая задача требует Opus. Проверка синтаксиса и проектирование архитектуры — разные уровни; один и тот же модель на всё — завышенный счёт.

На практике хватает трёх уровней:

Форматирование, классификация, короткие саммари: Haiku / GPT-4o-mini (~0,15–0,30 $/M).
Код, многошаговый reasoning, документация: Sonnet / GPT-4o (~3–5 $/M).
Архитектура, глубокий дебаг, extended thinking: Opus / o3 — только по запросу.

В LiteLLM задайте алиасы (fast / smart / deep); клиенты маршрутизируют по типу задачи. Мастер-ключи и логика — на шлюзе, не на ноутбуках. Пошагово — в практическом гайде Cloud Mac + OpenRouter.

Рычаг 2: бюджетные предохранители — отключить до сгорания

Роутинг выбирает модель; лимиты ловят runaway-агентов. Минимум — два слоя.

Жёсткий credit cap upstream: месячный потолок в OpenRouter или Anthropic — API отказывает, а не молча крутит дальше.
Virtual Keys со spend cap: на каждый клиент (Cursor, OpenClaw, скрипт) — свой ключ и свой бюджет на self-hosted gateway.

Пример Virtual Key LiteLLM (API)

curl -X POST http://127.0.0.1:4000/key/generate \
                  -H "Authorization: Bearer $LITELLM_MASTER_KEY" \
                  -H "Content-Type: application/json" \
                  -d '{
                    "key_alias": "cursor-dev",
                    "models": ["fast", "smart"],
                    "max_budget": 20,
                    "budget_duration": "1mo",
                    "metadata": {"tool": "cursor", "env": "dev"}
                  }'

Месячный потолок 20 $, только fast и smart — при превышении 429, мастер-ключ цел. Это минимальная жизнеспособная governance для команды: один сервер, один шлюз, разработчики получают только виртуальные ключи через SSH-туннель или Tailscale — мастер не покидает машину.

Рычаг 3: наблюдаемость — без картины нет экономии

Многие сюрпризы — в конце месяца: агент в пятницу тихо сжёг 50 $, задача давно завершена. Без spend в реальном времени невозможно ни FinOps, ни ответ на вопрос «кто куда ходил с API».

Dashboard LiteLLM: на /ui — spend, RPS и latency по Virtual Key.
Ежедневные алерты: cron + SQLite-запрос к litellm_verificationtoken, порог → Telegram или Slack.
Сверка с upstream: раз в неделю LiteLLM vs консоль OpenRouter — расхождение >10 % значит обход шлюза (прямые ключи на ноутбуках).

Что даёт observability

Команды с мониторингом spend в первый месяц часто находят 20–30 % «холостого» расхода: агенты, чей вывод никто не читает; скрипты с полным репо ради пяти строк; забытые cron с пилота.

Настоящий вопрос не «как сэкономить»

Джевонс не осуждал эффективность — он показал, что спрос растёт вместе с ней. Больше токенов может быть больше ценности, если отделить осознанные вложения от случайного расхода.

Дают ли дополнительные токены измеримую отдачу?
Сколько счёта — план, сколько — побочный эффект?
Может ли команда ответить на это в любой момент — без Excel на коленке?

Цель не «меньше токенов», а каждый токен в нужном месте. Роутинг, предохранители и прозрачность — чтобы рост счёта был «хорошим», а self-hosted gateway давал единую точку контроля для распределённой команды.

FAQ

Парадокс Джевонса вечен для ИИ? Пока каждое подешевление открывает новые сценарии — и reasoning может заменять всё больше ручного труда — да. Потолок пока не виден.

Хватит ли «перейти на дешёвую модель»? Краткосрочно — да. Среднесрочно сэкономленный бюджет уйдёт в больше задач — снова на кривую Джевонса. Устойчиво работают лимиты и видимость, не вечный downgrade.

Можно ли убрать мультипликатор агентов? Нет, но ограничить: max шагов, кэш результатов, правила оркестратора вместо LLM где возможно.

С ростом команды хуже? После трёх человек без gateway — ключи разбросаны, общий spend неизвестен. Virtual Keys и лимиты на пользователя становятся обязательными; миграция позже дороже раннего развёртывания шлюза на Cloud Mac.