Репортаж от Wedoany,Американская компания WEKA, специализирующаяся на инфраструктуре данных и памяти для ИИ, 9 июня 2026 года объявила о завершении производственных эталонных тестов своей платформы NeuralMesh в сочетании с Augmented Memory Grid на облачной инфраструктуре Oracle Cloud Infrastructure (OCI). Результаты показали, что без увеличения количества GPU и узлов кластера данное решение позволяет увеличить количество одновременных пользователей в сценариях длинноконтекстных рассуждений примерно в 10 раз, пропускную способность токенов — примерно в 10 раз, а количество токенов, генерируемых на один GPU, — примерно в 7 раз. Тестирование проводилось на кластере из 9 узлов OCI Bare Metal H100, объектом проверки было окно контекста размером 100 000 токенов.
Данное тестирование было сосредоточено на корпоративных длинноконтекстных рассуждениях. WEKA сообщила, что после внедрения NeuralMesh с Augmented Memory Grid количество одновременных пользователей увеличилось с примерно 600 человек в конфигурации только с DRAM до более чем 5 000 человек. Что касается пропускной способности токенов, данное решение достигло примерно 2 миллионов токенов в секунду, в то время как базовый уровень только с DRAM составлял менее 200 000 токенов в секунду. В ходе часового теста с 2 400 пользователями Augmented Memory Grid обслужила около 5 миллиардов токенов, а базовый уровень только с DRAM — около 700 миллионов токенов.
Тестовая среда состояла из 9 узлов OCI Bare Metal H100, каждый узел оснащен 8 GPU H100, всего 72 GPU. Согласно техническому блогу Oracle, каждый узел также оснащен 16 твердотельными накопителями Gen4 NVMe и двумя сетевыми картами 200Gb RDMA. Augmented Memory Grid расширила доступный объем кэша NVMe до 287 ТиБ, в то время как в базовой среде доступная DRAM составляла около 8,64 ТиБ. Для каждого смоделированного пользователя было установлено 100 000 токенов на ввод и 100 токенов на вывод, чтобы имитировать нагрузку на кэш при работе с длинными документами, многораундовыми сессиями и задачами агентов.
Ключевым моментом в таких тестах является не только количество GPU. В процессе выполнения длинноконтекстных рассуждений постоянно генерируется KV-кэш. Когда окно контекста расширяется до уровня 100 000 токенов, объем кэша и коэффициент попадания в кэш влияют на пропускную способность, задержку и эффективность использования GPU. В конфигурации только с DRAM после насыщения кэша легко возникают вытеснение кэша и повторные вычисления предварительного заполнения. Для таких приложений, как поиск, реферирование, помощь в написании кода и многораундовые агенты, это приводит к более высоким затратам на обслуживание и менее стабильному времени отклика.
Подход Augmented Memory Grid заключается в отделении KV-кэша от локальной видеопамяти GPU и DRAM и его размещении в высокопроизводительном кластерном хранилище токенов. В описании продукта на странице OCI компания WEKA поясняет, что данное решение основано на NeuralMesh и NeuralMesh Axon и использует RDMA и GPUDirect Storage для непрерывной передачи данных key-value кэша между памятью GPU и флэш-памятью, расширяя уровень кэша за счет инфраструктуры OCI Bare Metal GPU без добавления физической DRAM.
Согласно техническому блогу Oracle, данное тестирование перешло от ранней проверки TTFT к проверке производственных нагрузок, охватывающей плотность одновременных подключений, непрерывную пропускную способность, сохраняемость кэша и стабильность обслуживания при высоких нагрузках. В блоге также показано, что в тесте сравнивались стандартный базовый уровень обслуживания vLLM на HBM+DRAM и схема расширения кэша с внедрением Augmented Memory Grid. Результаты показали, что при достижении предела DRAM-кэша время отклика базового уровня колебалось, в то время как схема расширения кэша поддерживала более стабильный уровень обслуживания при более высокой степени параллелизма.
WEKA заявила, что NeuralMesh with Augmented Memory Grid уже доступна клиентам и размещена на Oracle Cloud Marketplace, причем OCI является ее первым облачным партнером. Для клиентов, развертывающих корпоративные ИИ-приложения, этот результат указывает на практическую проблему: в условиях быстрого роста спроса на длинноконтекстные рассуждения расширение вычислительных мощностей — не единственный вариант; расширение кэша, пути передачи данных и планирование кластера также влияют на стоимость одного токена и емкость онлайн-сервиса.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









