25 мая Huawei на симпозиуме IEEE по схемам и системам (ISCAS 2026) представила новый принцип развития полупроводников — закон τ (тау) — и на системном уровне единую шину Lingqu (Unified Bus). Официальная новость: Huawei: новые пути в полупроводниках. Для большинства разработчиков это далеко от повседневности; но если вы уже используете Claude Code, Cursor или harness вроде ECC или планируете держать шлюз OpenClaw 7×24 на VPS, каждое «сжатие времени» в железе превращается в вопрос: сколько стоит каждый tool loop, масштабируется ли кластер, окупается ли постоянный агент. Вчера — как ставить harness; сегодня — откуда агент берёт вычисления, где узкие места, что меняют τ и Lingqu — и нужно ли вам это вообще.
0. Сразу вывод: не обзор акций, а предыстория экономики агентов
После новости о τ важнее не фраза «к 2031 эквивалент 1,4 нм», а три уровня:
- Приложение: агент превращает редкий инференс в непрерывную эксплуатацию; счёт растёт как раунды × контекст × параллелизм — чем зрелее harness, тем больше множитель;
- Чип: когда геометрическое масштабирование замедляется, logic folding и энергоэффективность задают, сколько раундов вы получите за тот же счёт за электричество;
- Система: в многоузловом ИИ решают стена памяти и стена связи — Lingqu бьёт именно туда.
Иногда Copilot — достаточно ссылки. Строите командных coding-агентов, постоянный шлюз или свой инференс? Эти три уровня определят, куда уйдёт бюджет на два года: «больше API-модель» или «разумное разделение в облаке».
1. Почему эра агентов так «прожорлива» к вычислениям
Чат-бот: «спросил — ответил». Coding-агент — эксплуатационная система: репозиторий, тесты, много файлов, MCP, повторы, подзадачи. В ECC (Everything Claude Code) — стоит ли мы формулируем проблему как «агент расползается, дорожает, становится небезопаснее» — сначала из-за вызовов × длина контекста × параллелизм, а не пиковых FLOPS одного инференса.
Мысленный эксперимент: средний баг (цифры зависят от модели и тарифа — только структура, не оферта):
- Путь чата: описание → 2–3 фрагмента файлов → патч → конец. Часто 1–2 крупных вызова модели, контекст в десятках тысяч токенов.
- Путь агента: дерево каталогов → grep → 8–15 файлов → тесты (вывод в контекст) → правки в 3 файлах → снова тесты → sub-agent безопасности → hook сессии. Легко 15–40 round-trip, контекст нарастает с логами и diff.
При одинаковой «эффективной» цене инференса путь агента структурно даёт как минимум на порядок больше вызовов. ECC с memory hook, continuous learning, параллельными skills увеличивает множитель — не потому что модель «тупеет», а потому что ОС использует всё, что может.
Чат vs агент в таблице:
| Измерение | Чат | Агент / harness |
|---|---|---|
| Раунды | мало, обрезаемо | много + инструменты; ретраи норма |
| Контекст | вставляет пользователь | логи, diff, терминал, MCP автоматически |
| Параллелизм | низкий | skills, sub-agent, плотнее оркестрация |
| Онлайн | по запросу | шлюз, cron, webhook → 7×24 электричество + API |
| Фокус оптимизации | качество промпта | правила harness + база вычислений / interconnect |
«Вычислительная мощь — власть» для агента значит: кто может платить за частый инференс на длинном контексте, тот делает агента инфраструктурой, а не игрушкой. Малые команды часто думают, что хватит более дешёвого API — жёстче рычаг: меньше пустых раундов (harness) и постоянную нагрузку на предсказуемые машино-часы (VPS / облачный Mac) — то, что читатели VPSSpark выбирают каждый день.
2. Три «стены»: агент тормозит не из-за «глупой» модели
Разделите задержку и стоимость — проще убедить инвестировать в инфраструктуру:
- Стена контекста (приложение): окно велико, но заполняется; плохой RAG, плохое резюме — агент «тупеет», хотя это информационная архитектура;
- Стена памяти (одна машина, много ускорителей): DRAM CPU, HBM GPU, память NPU раздельны; веса, KV-cache, активации копируются вместо вычислений;
- Стена связи (много узлов): All-Reduce в обучении, распределённый KV в инференсе, маршрутизация MoE — GPU ждёт сеть, больше карт ≠ линейное ускорение.
τ и Lingqu бьют по двум последним; через цены облака, утилизацию кластера и хвостовую задержку API это возвращается в приложение: тот же Claude Code — «отзывчивый» или «8 секунд до следующего tool» — часто система, не промпт.
Самопроверка: harness есть, счёт взлетел? Сначала «round-trip модели на задачу» и «пик токенов в контексте», потом регион/облако инференса. Многие пилоты падают без операционных метрик, а не из-за выбора модели.
3. Закон τ: от геометрического к временному сжатию — читать без хайпа
Классический путь Мура — геометрическое сжатие транзисторов. Huawei в официальном тексте при ограниченном доступе к передовым техпроцессам и экономике предлагает временное (τ) сжатие: системно снижать постоянную времени τ от прибора до системы — сигнал, переключение, межсоединения, end-to-end. τ в схемотехнике — постоянная времени; «韬» (тау) — отраслевое имя принципа «время как мера».
Четыре уровня в публичных материалах — читайте «кто выигрывает», не по порядку слайдов:
| Уровень | Публичные рычаги | Для читателя про агентов |
|---|---|---|
| Прибор | снизить R/C, τ на уровне прибора | база эффективности; PUE, автономность |
| Схема | Logic Folding | больше эффективной плотности на ноде |
| Чип | SW/HW/чип, планирование по нагрузке | фреймворки инференса «кормят» железо |
| Система | Lingqu Unified Bus | много машин как одна; ниже стена связи |
iThome напоминает: скорее переформулировка известных направлений (3D, короткие связи, co-design) как «сначала задержка». Три инженерных пункта:
- «Плотность как 1,4 нм» ≠ своя линия EUV — бенчмарк; покупка по измерениям;
- 381 чип за шесть лет — работающая инженерная машина, не слайды;
- Kirin осенью + logic folding — первый потребительский сэмпл для edge-инференса агента.
4. Logic folding: почему новости о чипах гнут кривую счёта агента
Logic folding сворачивает критические пути по вертикали, короче дорожки, меньше RC — выше плотность и КПД. Huawei называет Kirin осенью 2026 первым; к 2031 — плотность транзисторов на уровне 1,4 нм (эквивалент). СМИ цитировали ~40 % эффективности P-ядер и ~10 % частоты (до релиза). Для агента эффект суммируется:
Сценарий A: Claude Code локально + малая модель — больше tool loop на батарею или тише при тех же раундах; отзывчивость повышает готовность делегировать.
Сценарий B: только API — чип не трогаете, но цена за токен следует TCO и пропускной способности; folding может дать дешевле тарифы или длиннее контекст без доплаты.
Сценарий C: свой инференс — меньше стоек на ту же QPS; для CFO важнее звёзд на GitHub, если «coding-агент для всех» в бюджете.
На «завтра» folding — среднесрочный фактор; на дорожную карту агента на три года — часть кривой цены базы, та же уравнение, что и «будет ли дешевле Claude».
5. PCIe, NVLink, сеть ЦОД: где стена связи
NVLink известен; многоузловость недооценена. Упрощённо (порядки величин по поколениям — только интуиция):
- NVLink в стойке: несколько GPU на сервер; память всё ещё раздроблена, копия быстрее;
- PCIe: CPU–GPU–NIC; апгрейды помогают, но не дают unified memory супер-узла;
- InfiniBand / RoCE между узлами: обучение; высокая полоса, но задержка и стек — MFU падает из-за связи.
В инференсе агентов:
- шардирование KV: длинные сессии на нескольких картах — каждый токен читает удалённый KV;
- маршрутизация MoE: эксперты на других узлах → хвост p99;
- мульти-тенант: сотни coding-агентов — p99 важнее среднего.
Топология приложения тоже бьётся о стены: OpenClaw на VPS, модель в другом регионе, векторная БД в третьем — каждый «весь репозиторий в контекст» платит задержку + egress. В OpenClaw на Linux VPS: GitHub Actions vs ручной Docker мы подчёркиваем: шлюз = стабильный канал, предсказуемая оплата; τ и Lingqu спрашивают, выдержит ли тот же бюджет на 30 % больше параллельных сессий.
6. Шина Lingqu: единая семантика памяти — системная задача эры агентов
Huawei предлагает Lingqu (Unified Bus): переосмыслить interconnect, единое адресование памяти и нативную семантику памяти на уровне супер-узла — CPU, NPU, GPU и пул памяти в софте ближе к одной машине.
Сравнение (цели из публичных заявлений, не сторонний бенчмарк):
| Аспект | Классический многоузловой ИИ | Направление Lingqu |
|---|---|---|
| Модель мышления | rank, send/recv, явная синхронизация | ближе к глобальному адресному пространству |
| Движение данных | сериализация, длинные цепочки DMA | нативная семантика памяти, меньше стека |
| Единица закупки | «узел» | «супер-узел» |
| Цель для пользователя | пропускная способность | незаметная задержка в интерактиве и шаге обучения |
Почему это убедительно для агентов? UX — миллисекундные циклы tool → модель → tool. −5 % связи в обучении — миллионы долларов; −50 ms p99 в инференсе — coding-агент из пилота в настройку по умолчанию.
Запомнить: Lingqu заставляет ускорители работать как одна машина; harness — инструменты как один инженер. Только ECC без interconnect — спорткар без дорог: быстро вначале, упирается в стену.
7. Обучение и инференс: по нагрузке, не по слухам о модели
Консенсус (без конкретной версии): параметры, MoE, контекст в миллионы токенов тянут полосу. Потенциал τ + Lingqu по workload:
| Нагрузка | Частый узкий участок | τ / Lingqu могут |
|---|---|---|
| Предобучение | All-Reduce, MFU | стена связи; $/step |
| Длинный контекст, инференс | ёмкость KV, чтения между картами | единое адресование, меньше копий |
| Coding-агенты онлайн | хвост задержки, планирование | утилизация супер-узла, SLA |
| Шлюз 7×24 + малый роутинг | постоянное электричество, cold start | эффективность edge; VPS — машино-часы |
Краткосрочно для одного разработчика: цены API. Для своего инференса: поколение interconnect, супер-узел, стратегия KV в ТЗ. Для читателей VPSSpark: harness сжимает раунды локально; шлюз и сборки на прозрачных облачных хостах — когда база дешевеет, «слишком дорого держать включённым» становится «включено по умолчанию».
8. Если вычисления и задержка падают: что взорвётся первым (и контрпримеры)
История: кривая стоимости → новое поведение по умолчанию, а не чуть дешевле.
- Постоянные агенты личные/командные: мониторинг, дежурство, сообщество, CI — 7×24 как базовый VPS;
- Оркестрация нескольких агентов: ревью + реализация + тесты параллельно; ECC 2.0 актуальнее;
- Гибрид локально + облако: embedding и чувствительные данные на edge; большая модель и
xcodebuildна облачном Mac; - Вертикальные «фабрики» агентов: поддержка, ops, compliance — после коммодитизации вычислений выигрывают процесс и данные.
Контрпримеры:
- новости о чипах не напишут правила harness; двойные hooks раздувают счёт;
- Lingqu не устранит плохой RAG и ошибки прав;
- дёшевые вычисления не делают Hackintosh рекомендуемым путём.
Личная база знаний (OpenHuman Memory Tree) и coding-harness идут параллельно — дешевле база = дольше онлайн, но приватность и право на удаление остаются продуктовыми темами.
9. Матрица читателя: что делать сейчас
| Кто вы | На этой неделе | τ / Lingqu |
|---|---|---|
| Один разработчик | считать round-trip на задачу; минимальный профиль ECC | официальный текст; тренд цен API |
| Tech lead малой команды | шлюз на VPS, сборки на облачном Mac; задокументировать роли | машино-часы + API в стоимость спринта |
| Платформа / свой инференс | MFU, p99, cross-node KV | interconnect и супер-узел в чеклист закупки |
10. Разделение: harness локально, шлюз и сборка в облаке
τ и Lingqu меняют цену базы и форму кластера, не ваши .cursor/rules. Сегодня исполнимое и понятное CFO и инженерам:
- Локально: ECC / Claude Code / Cursor — harness, правила, аудит, меньше холостых раундов;
- Linux VPS: шлюз OpenClaw, webhook, cron — предсказуемее ноутбука 7×24;
- Облачный Mac:
xcodebuild, нотаризация, TestFlight — компилятору нужен macOS.
Чем дешевле вычисления, тем выгоднее держать «дорогое, но всегда онлайн» на хостах с предсказуемой оплатой. См. гид: аренда Mac mini в облаке — машино-часы и API в одной таблице, чтобы ответить на полную агентизацию.
Связь со статьёй ECC от 26.05: ECC — «как эксплуатировать агентов»; эта — «почему дорожает и как остывает база». Вместе ближе к практической экономике агентов, чем одна новость о чипе.
11. Итог: читать τ, чтобы перечертить линию разделения агента
Закон τ смещает меру с «нанометров» на «постоянную времени»; Lingqu стремится к единой семантике памяти и меньшей сетевой задержке. Logic folding меняет КПД и плотность на чипе. Жёсткая интуиция:
- harness борется за оркестрацию и раунды;
- τ — за эффективную мощность на единицу времени;
- Lingqu — за то, остаётся ли много машин одной машиной.
Произведение решает, станет ли агент производственной инфраструктурой. Начните с доклада Huawei на ISCAS, затем ECC локально vs шлюз в облаке — это лучше ведёт архитектурную встречу на следующей неделе, чем «кто победил в войне чипов».
Цена базы меняется — сегодняшнее разделение может остаться: harness локально, шлюз OpenClaw на Linux VPS, подпись сборок на облачном Mac — на главную VPSSpark за облачным Mac и VPS, чтобы вложить стоимость агента в предсказуемые машино-часы.