Репортаж от Wedoany,Huawei совместно с China Mobile Hubei впервые в китайской телекоммуникационной отрасли завершила проверку коммерческой сети для решения по ускорению вывода ИИ (AI Inference Acceleration Solution). Этот результат был представлен на выставке MWC Shanghai 2026, проходившей с 24 по 26 июня в павильоне N1 Шанхайского нового международного выставочного центра (SNIEC).

С развитием ИИ-приложений в сторону агентного режима всё чаще возникают сценарии, требующие обработки длинного контекста, такие как генерация кода и многораундовые диалоги. Однако ограниченная ёмкость встроенной памяти и DRAM приводит к снижению частоты попаданий в KV-кэш (кэш ключ-значение), что влияет на производительность вывода.
Huawei построила решение на основе хранилища OceanStor A800, Ascend A3 SuperPOD и унифицированного менеджера кэша (UCM, Unified Cache Manager), выпущенного в 2025 году. UCM использует внешнее высокопроизводительное хранилище для реализации KV-кэша на уровне петабайт, преодолевая ограничения ёмкости встроенной памяти и DRAM. Система осуществляет многоуровневое управление и планирование KV-кэша на всём жизненном цикле, расширяет окно контекста одного диалога, а в многораундовых диалогах повторно использует исторический KV-кэш, устраняя повторные вычисления и снижая затраты на вывод.
Проверка проводилась в коммерческой сети China Mobile Hubei с использованием фреймворка vLLM-Ascend для тестирования моделей MiniMax M2.5 и GLM-5.1 при длинных последовательностях от 8K до 190K токенов. Время генерации первого токена (TTFT, Time To First Token) модели GLM-5.1 улучшилось на 51–93%, а количество токенов в секунду (TPS, Tokens Per Second) на каждый NPU увеличилось на 56–372%. По длине последовательности: при 64K TPS вырос на 313%, при 128K — на 372%. Для модели MiniMax M2.5 после применения UCM TTFT улучшилось на 26–62%, TPS при 64K вырос на 58%, при 128K — на 78%. С увеличением длины контекста эффект ускорения данного решения становится ещё более заметным.
Представитель China Mobile Hubei отметил, что провинция Хубэй находится в ключевом регионе с задержкой до восьми национальных вычислительных узлов всего 10 миллисекунд. В сценариях взаимодействия ИИ-агентов и генерации кода данное решение позволяет повысить пропускную способность более чем на 50%, закладывая основу для масштабного развёртывания ИИ-услуг. Майкл Цю, президент глобального отдела маркетинга и продаж решений для хранения данных Huawei, отметил, что с запуском операторами тарифов на токены массовое развёртывание ИИ-агентов вступает в новую фазу, и ожидается экспоненциальный рост потребления токенов.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









