Сколько на самом деле стоит AI Agent? Полный счёт от одного до команды

На прошлой неделе один инди-разработчик спросил в чате: «Подключил OpenClaw, купил Cursor Pro — в конце месяца на карте $180. Это нормально?» Комментарии мгновенно разделились: «слишком дёшево» и «ты с ума сошёл». Обе стороны правы — речь о разных типах AI-агентов.

Кто-то использует агента как «умный поиск» и иногда задаёт вопросы. Кто-то крутит агента 7×24 на VPS: читает почту, правит код, шлёт уведомления в Slack. Первому хватает $20 в месяц; второй легко сжигает трёхзначные суммы в одиночку. На вопрос «сколько стоит AI-агент?» не хватает не ответа, а единой методики расчёта.

Эта статья разбирает счёт на четыре слоя, даёт ориентиры для личного использования, соло-разработчика и малой команды и формулу для самопроверки. Цены — по публичным тарифам ведущих провайдеров середины 2026 года; ориентируйтесь на свою консоль.

Краткий вывод

Лёгкое личное использование: около $15—$40/мес; соло-разработчик с агентом как основным инструментом: $80—$250/мес; малая команда (3—10 человек) с фоновыми агентами: часто $800—$3 000/мес — без времени на ручную проверку. Токены обычно 40—70 % суммы; остальное — подписки, инфраструктура и ошибки агента.

4 слоя

Измерения
разбора затрат

5—12×

Множитель вызовов
агент vs. один вопрос

~30 %

Типичная доля
«бесполезного» расхода в 1-й месяц

Не только токены: четырёхслойная модель затрат на AI-агента

Большинство смотрит только на расход токенов в консоли Anthropic или OpenRouter. Для Q&A это ещё сойдёт; для агентов — сильное занижение. Автономный агент накладывает минимум четыре уровня расходов:

Слой	Что входит	Кто чаще всего упускает
L1 Инференс модели	Токены LLM API, thinking tokens, мультимодальный ввод	Почти никто — но множитель агента недооценивают
L2 Инструменты и платформы	Cursor Pro, Claude Code, OpenClaw, векторные БД, search API	Подписку и API смешивают, двойная оплата
L3 Инфраструктура	Постоянный VPS / Cloud Mac, gateway, домен, object storage, логи	«На ноутбуке бесплатно»
L4 Ручная проверка	Проверка вывода, исправления, алерты, промпты / правила	В бухгалтерии ноль, альтернативные издержки высоки

L1 виден в счёте; L2—L4 скрыты и создают разрыв между «ИИ дёшевый» и «откуда столько в конце месяца?». Ниже — разбор по уровням использования.

Уровень 1: личное — агент как «умный поиск»

Типичный профиль: иногда автодополнение в Cursor, мобильный агент для заметок, нет фоновых задач 7×24, нет бота в Slack или Teams.

L1 невелик. Допустим: 20 диалогов в день, в среднем 2 000 токенов (с контекстом) → ~1,2 M токенов/мес. Модель уровня Sonnet (~$3/M вход + $15/M выход, соотношение 7:3): L1 около $8—$15/мес. Через тарифы OpenRouter с Haiku / GPT-4o-mini: $3—$8.

L2 часто самый крупный пункт: Cursor Pro ~$20/мес или Claude Pro ~$20/мес. После исчерпания квоты подписки — тариф API; многие впервые переплачивают именно здесь.

L3 на этом уровне обычно ноль: агент на ноутбуке, при выключении останавливается. L4 можно не учитывать — вы и так читаете вывод.

Итого личное: около $15—$40/мес. Потолок редко в токенах, а в двух-трёх AI-подписках, из которых реально пользуются одной.

Уровень 2: соло-разработчик — агент как основной инструмент

Типичный профиль: 2—4 часа в день Cursor Agent или Claude Code; OpenClaw / свои скрипты в фоне для PR review, сводок логов, отчётов по расписанию; постоянно включённый gateway или VPS для единого роутинга.

L1 скачет на порядок. По выборке (опрос 10 человек + свои счета): 5—15 задач агента в день, 6—10 вызовов LLM на задачу, 8 000—15 000 токенов на вызов (с контекстом репозитория). В месяц 50—200 M токенов.

Статья	Типичный диапазон соло	Примечание
L1 Инференс модели	$40—$150/мес	Роутинг в основном Sonnet, Opus по необходимости
L2 Подписки на инструменты	$20—$60/мес	Cursor Pro + опционально Claude Code / OpenClaw
L3 Инфраструктура	$5—$50/мес	Лёгкий VPS или Cloud Mac посуточно как gateway
L4 Ручная проверка	5—10 ч/мес	При $50/ч альтернативных издержек ≈ $250—$500

С L4 реальная цена может быть $300—$700/мес; только денежные расходы (L1—L3): $80—$250/мес.

Ключевая переменная — множитель агента: одна команда может вызвать восемь обращений к LLM. В статье Почему счёт за ИИ растёт, хотя токены дешевеют? мы разбираем этот эффект — цена за единицу падает, цепочка вызовов остаётся длинной, счёт всё равно растёт.

Самый эффективный контроль — gateway и бюджетные предохранители: LiteLLM с многоуровневым роутингом (Haiku для простого, Sonnet для сложного), отдельный Virtual Key на инструмент с месячным лимитом. Сборка: Cloud Mac + OpenRouter: личный AI Gateway корпоративного уровня — практический гайд.

Уровень 3: малая команда (3—10 человек) — агент в рабочем процессе

Типичный профиль: общий gateway, Cursor Business или аналог по головам; 1—3 фоновых агента (сводки поддержки, разбор падений CI, синхронизация документации); нужны аудит-логи и изоляция ключей.

L1 растёт сверхлинейно — фоновые агенты не масштабируются линейно с числом людей, и участники запускают друг друга (PR от A запускает review-бота, тот вызывает тестового агента B).

Грубая оценка: 5 человек, по 10 задач агента в день → 500 M—2 B токенов/мес. При смешанном роутинге ~$2/M: только L1 $1 000—$4 000/мес. Без роутинга, все на Sonnet + Opus — легко вдвое больше.

L2 по головам: Cursor Business ~$40/чел × 5 = $200; плюс Claude Team или платформа агентов: +$100—$300. L3: постоянная машина gateway (Cloud Mac или VPS) $20—$80/мес, логи, векторная БД (Pinecone / pgvector) $20—$100/мес.

L4 сильно недооценивают. В первые три месяца в среднем 2—4 часа в неделю на «починку агента» — промпты, ложные срабатывания, объяснения новичкам. Tech lead: 8—16 ч/мес × $80/ч ≈ $640—$1 280 альтернативных издержек.

Типичные ловушки малых команд

У каждого свой master API key — пять человек, пять биллингов, никто не знает общую сумму; забытый max_retries в тестовом скрипте сжигает $200+ на одном нестабильном тесте. После трёх человек ставьте gateway — иначе миграция и ответственность обойдутся дороже.

Денежные расходы (L1—L3): часто $800—$3 000/мес; с L4: $1 500—$5 000/мес. Если агент заменяет 0,5 джуниор-позиции или 20 % поддержки, ROI сохраняется — при условии, что финансы и инженерия считают в одной рамке.

Под четырьмя слоями: три «невидимых» расхода

Три статьи часто пропускают на бюджетных встречах:

Налог на ошибки и повторы. Агент повторяет при сбое инструмента, уточняет при размытой инструкции. Задача «в один вызов» в режиме агента легко превращается в 5—12 вызовов. По тарифам Anthropic thinking tokens тоже в счёт — «глубокий анализ» может стоить в 5—10 раз больше ожидаемого.

Налог на раздувание контекста. Фреймворки агентов часто шлют полный контекст — весь репозиторий, всю историю чата, все определения инструментов. Файл 500 КБ ≈ 125 K токенов съедает большую часть месячной квоты лёгкого пользователя. Без обрезки контекста дешёвый роутинг не спасёт.

Налог на холодный старт и миграцию. Смена модели, фреймворка, переезд в облако: первые две недели часто в 2—3 раза дороже стабильной фазы. Отдельный «экспериментальный» бюджет — не тот же безлимитный API key, что у продакшена.

Самопроверка: оценка месячного счёта за 30 секунд

Четыре переменные — грубая оценка денежных затрат L1 в долларах/мес:

Оценка месячной стоимости токенов

# Переменные
                D = задач агента в день
                M = вызовов LLM на задачу (множитель, типично 5—12)
                T = токенов на вызов (вход+выход, типично 8K—20K)
                P = эффективная цена после роутинга ($/M токенов, типично 1,5—4)

                # Формула
                Месячная стоимость токенов ≈ D × M × T × 30 × P / 1 000 000

                # Пример: соло-разработчик
                # D=10, M=8, T=12000, P=2,5 → 10×8×12000×30×2,5/1M = $72/мес (только L1)

                # Не забудьте L2+L3; ×1,3 на запас для retry
                Месячные денежные расходы ≈ стоимость токенов × 1,3 + подписки L2 + инфра L3

Если L1 показывает $30, а с карты списали $120 — разница почти наверняка в L2 (подписка + API сверх квоты) и L3 (забытая постоянно работающая машина). Группируйте консоли по «сервису», а не по дате — утечку обычно видно сразу.

Контроль счёта: три стратегии, не один размер на всех

Личное: одна основная подписка, API через gateway или жёсткий лимит в консоли провайдера. Облако не обязательно — но месячный credit cap у OpenRouter / Anthropic.

Соло: полдня на LiteLLM + Virtual Key. Cursor, скрипты, OpenClaw — разные ключи, лимит $20—$50/мес каждый. Gateway на всегда доступной машине — ноутбук в сне рвёт соединение, агент бесконечно ретраит: это самое дорогое.

Малая команда: три обязательных элемента: ① Virtual Key на пользователя + spend cap; ② многоуровневый роутинг (fast / smart / deep); ③ еженедельный spend-отчёт vs. счёт upstream. Документация LiteLLM Virtual Keys покрывает минимально жизнеспособное управление; master key только на gateway, не на клиентах.

Правильные траты важнее слепой экономии

Команды с мониторингом расходов в первый месяц часто срезают 20—30 % бесполезного потребления: непрочитанный вывод агента, скрипты с полным контекстом хотя нужны последние строки, забытые cron-задачи. Сэкономленный бюджет — в workflow, которые приносят деньги, а не в понижение модели для всех.

Последний вопрос: окупается ли — независимо от цены токена

Вернёмся к соло с $180: если он экономит 6 часов в неделю на ручных тестах и описаниях PR ($50/ч → $1 200/мес), ROI 6,7×. Если это был просто более дорогой чат — да, дорого.

Размер счёта определяется не тем, «используете ли вы ИИ», а длиной цепочки множителей, размером контекста и бюджетными предохранителями. Личное до $40 реально; ~$150 комфортно для соло с gateway; у малой команды без управления четырёхзначные суммы — норма, с управлением часто минус треть потерь при тех же функциях.

Следующий вопрос не «дорог ли агент?», а: «какому измеримому результату соответствует каждый доллар в моём четырёхслойном счёте?» Кто отвечает — яснее, чем 90 % команд.

FAQ

Только Cursor Pro без отдельного API — это затраты на агента? Да — учитывайте подписку и API сверх квоты отдельно. Cursor Pro включает лимит fast requests; режим агента расходует быстрее, дальше — API. Многие ждут «безлимит в подписке» и удивляются доплате.

Свой Ollama локально — нулевая стоимость? API почти ноль, но железо, электричество и время настройки — тоже затраты. Mac mini M4 для 7B—14B недорог в эксплуатации; сложные задачи агента часто всё равно тянут облачные модели — гибрид обычен.

Команде: сначала понизить модель или поставить gateway? Сначала gateway. Понижение модели — разовая оптимизация; Virtual Keys, роутинг и предохранители — системное управление. Без gateway вы не узнаете, кто и на какой задаче сжигает деньги.

Будут ли затраты на агента падать с дешевеющими моделями? Цена за единицу падает, эффект Джевонса разгоняет объём — больше сценариев, длиннее цепочки. В долгую структура управления влияет на счёт сильнее, чем цена модели.