VPSSpark Блог
← К дневнику разработки

Вычислительная мощность — это власть: закон τ, шина Lingqu и «стена времени» Agent

Заметки с сервера · 2026.05.27 · ~24 мин

Стойки ЦОД и высокоскоростные интерконнекты, закон τ и инфраструктура AI Agent

25 мая Huawei на симпозиуме IEEE по схемам и системам (ISCAS 2026) представила новый принцип развития полупроводников — закон τ (тау) — и на системном уровне единую шину Lingqu (Unified Bus). Официальная новость: Huawei: новые пути в полупроводниках. Для большинства разработчиков это далеко от повседневности; но если вы уже используете Claude Code, Cursor или harness вроде ECC или планируете держать шлюз OpenClaw 7×24 на VPS, каждое «сжатие времени» в железе превращается в вопрос: сколько стоит каждый tool loop, масштабируется ли кластер, окупается ли постоянный агент. Вчера — как ставить harness; сегодня — откуда агент берёт вычисления, где узкие места, что меняют τ и Lingqu — и нужно ли вам это вообще.

τ
Постоянная времени: оптимизировать «быстрее», а не только «меньше»
381
Huawei: чипов в серии за шесть лет
Типичный «скрытый» множитель счёта за агента (см. ниже)

0. Сразу вывод: не обзор акций, а предыстория экономики агентов

После новости о τ важнее не фраза «к 2031 эквивалент 1,4 нм», а три уровня:

  1. Приложение: агент превращает редкий инференс в непрерывную эксплуатацию; счёт растёт как раунды × контекст × параллелизм — чем зрелее harness, тем больше множитель;
  2. Чип: когда геометрическое масштабирование замедляется, logic folding и энергоэффективность задают, сколько раундов вы получите за тот же счёт за электричество;
  3. Система: в многоузловом ИИ решают стена памяти и стена связи — Lingqu бьёт именно туда.

Иногда Copilot — достаточно ссылки. Строите командных coding-агентов, постоянный шлюз или свой инференс? Эти три уровня определят, куда уйдёт бюджет на два года: «больше API-модель» или «разумное разделение в облаке».

1. Почему эра агентов так «прожорлива» к вычислениям

Чат-бот: «спросил — ответил». Coding-агент — эксплуатационная система: репозиторий, тесты, много файлов, MCP, повторы, подзадачи. В ECC (Everything Claude Code) — стоит ли мы формулируем проблему как «агент расползается, дорожает, становится небезопаснее» — сначала из-за вызовов × длина контекста × параллелизм, а не пиковых FLOPS одного инференса.

Мысленный эксперимент: средний баг (цифры зависят от модели и тарифа — только структура, не оферта):

  • Путь чата: описание → 2–3 фрагмента файлов → патч → конец. Часто 1–2 крупных вызова модели, контекст в десятках тысяч токенов.
  • Путь агента: дерево каталогов → grep → 8–15 файлов → тесты (вывод в контекст) → правки в 3 файлах → снова тесты → sub-agent безопасности → hook сессии. Легко 15–40 round-trip, контекст нарастает с логами и diff.

При одинаковой «эффективной» цене инференса путь агента структурно даёт как минимум на порядок больше вызовов. ECC с memory hook, continuous learning, параллельными skills увеличивает множитель — не потому что модель «тупеет», а потому что ОС использует всё, что может.

Чат vs агент в таблице:

Измерение Чат Агент / harness
Раунды мало, обрезаемо много + инструменты; ретраи норма
Контекст вставляет пользователь логи, diff, терминал, MCP автоматически
Параллелизм низкий skills, sub-agent, плотнее оркестрация
Онлайн по запросу шлюз, cron, webhook → 7×24 электричество + API
Фокус оптимизации качество промпта правила harness + база вычислений / interconnect

«Вычислительная мощь — власть» для агента значит: кто может платить за частый инференс на длинном контексте, тот делает агента инфраструктурой, а не игрушкой. Малые команды часто думают, что хватит более дешёвого API — жёстче рычаг: меньше пустых раундов (harness) и постоянную нагрузку на предсказуемые машино-часы (VPS / облачный Mac) — то, что читатели VPSSpark выбирают каждый день.

2. Три «стены»: агент тормозит не из-за «глупой» модели

Разделите задержку и стоимость — проще убедить инвестировать в инфраструктуру:

  • Стена контекста (приложение): окно велико, но заполняется; плохой RAG, плохое резюме — агент «тупеет», хотя это информационная архитектура;
  • Стена памяти (одна машина, много ускорителей): DRAM CPU, HBM GPU, память NPU раздельны; веса, KV-cache, активации копируются вместо вычислений;
  • Стена связи (много узлов): All-Reduce в обучении, распределённый KV в инференсе, маршрутизация MoE — GPU ждёт сеть, больше карт ≠ линейное ускорение.

τ и Lingqu бьют по двум последним; через цены облака, утилизацию кластера и хвостовую задержку API это возвращается в приложение: тот же Claude Code — «отзывчивый» или «8 секунд до следующего tool» — часто система, не промпт.

Самопроверка: harness есть, счёт взлетел? Сначала «round-trip модели на задачу» и «пик токенов в контексте», потом регион/облако инференса. Многие пилоты падают без операционных метрик, а не из-за выбора модели.

3. Закон τ: от геометрического к временному сжатию — читать без хайпа

Классический путь Мура — геометрическое сжатие транзисторов. Huawei в официальном тексте при ограниченном доступе к передовым техпроцессам и экономике предлагает временное (τ) сжатие: системно снижать постоянную времени τ от прибора до системы — сигнал, переключение, межсоединения, end-to-end. τ в схемотехнике — постоянная времени; «韬» (тау) — отраслевое имя принципа «время как мера».

Четыре уровня в публичных материалах — читайте «кто выигрывает», не по порядку слайдов:

Уровень Публичные рычаги Для читателя про агентов
Прибор снизить R/C, τ на уровне прибора база эффективности; PUE, автономность
Схема Logic Folding больше эффективной плотности на ноде
Чип SW/HW/чип, планирование по нагрузке фреймворки инференса «кормят» железо
Система Lingqu Unified Bus много машин как одна; ниже стена связи

iThome напоминает: скорее переформулировка известных направлений (3D, короткие связи, co-design) как «сначала задержка». Три инженерных пункта:

  • «Плотность как 1,4 нм» ≠ своя линия EUV — бенчмарк; покупка по измерениям;
  • 381 чип за шесть лет — работающая инженерная машина, не слайды;
  • Kirin осенью + logic folding — первый потребительский сэмпл для edge-инференса агента.

4. Logic folding: почему новости о чипах гнут кривую счёта агента

Logic folding сворачивает критические пути по вертикали, короче дорожки, меньше RC — выше плотность и КПД. Huawei называет Kirin осенью 2026 первым; к 2031 — плотность транзисторов на уровне 1,4 нм (эквивалент). СМИ цитировали ~40 % эффективности P-ядер и ~10 % частоты (до релиза). Для агента эффект суммируется:

Сценарий A: Claude Code локально + малая модель — больше tool loop на батарею или тише при тех же раундах; отзывчивость повышает готовность делегировать.

Сценарий B: только API — чип не трогаете, но цена за токен следует TCO и пропускной способности; folding может дать дешевле тарифы или длиннее контекст без доплаты.

Сценарий C: свой инференс — меньше стоек на ту же QPS; для CFO важнее звёзд на GitHub, если «coding-агент для всех» в бюджете.

На «завтра» folding — среднесрочный фактор; на дорожную карту агента на три года — часть кривой цены базы, та же уравнение, что и «будет ли дешевле Claude».

NVLink известен; многоузловость недооценена. Упрощённо (порядки величин по поколениям — только интуиция):

  • NVLink в стойке: несколько GPU на сервер; память всё ещё раздроблена, копия быстрее;
  • PCIe: CPU–GPU–NIC; апгрейды помогают, но не дают unified memory супер-узла;
  • InfiniBand / RoCE между узлами: обучение; высокая полоса, но задержка и стекMFU падает из-за связи.

В инференсе агентов:

  • шардирование KV: длинные сессии на нескольких картах — каждый токен читает удалённый KV;
  • маршрутизация MoE: эксперты на других узлах → хвост p99;
  • мульти-тенант: сотни coding-агентов — p99 важнее среднего.

Топология приложения тоже бьётся о стены: OpenClaw на VPS, модель в другом регионе, векторная БД в третьем — каждый «весь репозиторий в контекст» платит задержку + egress. В OpenClaw на Linux VPS: GitHub Actions vs ручной Docker мы подчёркиваем: шлюз = стабильный канал, предсказуемая оплата; τ и Lingqu спрашивают, выдержит ли тот же бюджет на 30 % больше параллельных сессий.

6. Шина Lingqu: единая семантика памяти — системная задача эры агентов

Huawei предлагает Lingqu (Unified Bus): переосмыслить interconnect, единое адресование памяти и нативную семантику памяти на уровне супер-узла — CPU, NPU, GPU и пул памяти в софте ближе к одной машине.

Сравнение (цели из публичных заявлений, не сторонний бенчмарк):

Аспект Классический многоузловой ИИ Направление Lingqu
Модель мышления rank, send/recv, явная синхронизация ближе к глобальному адресному пространству
Движение данных сериализация, длинные цепочки DMA нативная семантика памяти, меньше стека
Единица закупки «узел» «супер-узел»
Цель для пользователя пропускная способность незаметная задержка в интерактиве и шаге обучения

Почему это убедительно для агентов? UX — миллисекундные циклы tool → модель → tool. −5 % связи в обучении — миллионы долларов; −50 ms p99 в инференсе — coding-агент из пилота в настройку по умолчанию.

Запомнить: Lingqu заставляет ускорители работать как одна машина; harness — инструменты как один инженер. Только ECC без interconnect — спорткар без дорог: быстро вначале, упирается в стену.

7. Обучение и инференс: по нагрузке, не по слухам о модели

Консенсус (без конкретной версии): параметры, MoE, контекст в миллионы токенов тянут полосу. Потенциал τ + Lingqu по workload:

Нагрузка Частый узкий участок τ / Lingqu могут
Предобучение All-Reduce, MFU стена связи; $/step
Длинный контекст, инференс ёмкость KV, чтения между картами единое адресование, меньше копий
Coding-агенты онлайн хвост задержки, планирование утилизация супер-узла, SLA
Шлюз 7×24 + малый роутинг постоянное электричество, cold start эффективность edge; VPS — машино-часы

Краткосрочно для одного разработчика: цены API. Для своего инференса: поколение interconnect, супер-узел, стратегия KV в ТЗ. Для читателей VPSSpark: harness сжимает раунды локально; шлюз и сборки на прозрачных облачных хостах — когда база дешевеет, «слишком дорого держать включённым» становится «включено по умолчанию».

8. Если вычисления и задержка падают: что взорвётся первым (и контрпримеры)

История: кривая стоимости → новое поведение по умолчанию, а не чуть дешевле.

  1. Постоянные агенты личные/командные: мониторинг, дежурство, сообщество, CI — 7×24 как базовый VPS;
  2. Оркестрация нескольких агентов: ревью + реализация + тесты параллельно; ECC 2.0 актуальнее;
  3. Гибрид локально + облако: embedding и чувствительные данные на edge; большая модель и xcodebuild на облачном Mac;
  4. Вертикальные «фабрики» агентов: поддержка, ops, compliance — после коммодитизации вычислений выигрывают процесс и данные.

Контрпримеры:

  • новости о чипах не напишут правила harness; двойные hooks раздувают счёт;
  • Lingqu не устранит плохой RAG и ошибки прав;
  • дёшевые вычисления не делают Hackintosh рекомендуемым путём.

Личная база знаний (OpenHuman Memory Tree) и coding-harness идут параллельно — дешевле база = дольше онлайн, но приватность и право на удаление остаются продуктовыми темами.

9. Матрица читателя: что делать сейчас

Кто вы На этой неделе τ / Lingqu
Один разработчик считать round-trip на задачу; минимальный профиль ECC официальный текст; тренд цен API
Tech lead малой команды шлюз на VPS, сборки на облачном Mac; задокументировать роли машино-часы + API в стоимость спринта
Платформа / свой инференс MFU, p99, cross-node KV interconnect и супер-узел в чеклист закупки

10. Разделение: harness локально, шлюз и сборка в облаке

τ и Lingqu меняют цену базы и форму кластера, не ваши .cursor/rules. Сегодня исполнимое и понятное CFO и инженерам:

  • Локально: ECC / Claude Code / Cursor — harness, правила, аудит, меньше холостых раундов;
  • Linux VPS: шлюз OpenClaw, webhook, cron — предсказуемее ноутбука 7×24;
  • Облачный Mac: xcodebuild, нотаризация, TestFlight — компилятору нужен macOS.

Чем дешевле вычисления, тем выгоднее держать «дорогое, но всегда онлайн» на хостах с предсказуемой оплатой. См. гид: аренда Mac mini в облаке — машино-часы и API в одной таблице, чтобы ответить на полную агентизацию.

Связь со статьёй ECC от 26.05: ECC — «как эксплуатировать агентов»; эта — «почему дорожает и как остывает база». Вместе ближе к практической экономике агентов, чем одна новость о чипе.

11. Итог: читать τ, чтобы перечертить линию разделения агента

Закон τ смещает меру с «нанометров» на «постоянную времени»; Lingqu стремится к единой семантике памяти и меньшей сетевой задержке. Logic folding меняет КПД и плотность на чипе. Жёсткая интуиция:

  • harness борется за оркестрацию и раунды;
  • τ — за эффективную мощность на единицу времени;
  • Lingqu — за то, остаётся ли много машин одной машиной.

Произведение решает, станет ли агент производственной инфраструктурой. Начните с доклада Huawei на ISCAS, затем ECC локально vs шлюз в облаке — это лучше ведёт архитектурную встречу на следующей неделе, чем «кто победил в войне чипов».

Цена базы меняется — сегодняшнее разделение может остаться: harness локально, шлюз OpenClaw на Linux VPS, подпись сборок на облачном Mac — на главную VPSSpark за облачным Mac и VPS, чтобы вложить стоимость агента в предсказуемые машино-часы.

Ограничено

Harness на десктопе, сборка и gateway в облаке

τ снижает базовую цену · OpenClaw · облачный Mac

На главную
Акция Смотреть тарифы