WEKA (США) подтвердила длинноконтекстные рассуждения в Oracle Cloud, пропускная способность увеличена в 10 раз
2026-06-10 11:30
В избр.

Репортаж от Wedoany,Американская компания WEKA, специализирующаяся на инфраструктуре данных и памяти для ИИ, 9 июня 2026 года объявила о завершении производственных эталонных тестов своей платформы NeuralMesh в сочетании с Augmented Memory Grid на облачной инфраструктуре Oracle Cloud Infrastructure (OCI). Результаты показали, что без увеличения количества GPU и узлов кластера данное решение позволяет увеличить количество одновременных пользователей в сценариях длинноконтекстных рассуждений примерно в 10 раз, пропускную способность токенов — примерно в 10 раз, а количество токенов, генерируемых на один GPU, — примерно в 7 раз. Тестирование проводилось на кластере из 9 узлов OCI Bare Metal H100, объектом проверки было окно контекста размером 100 000 токенов.

Данное тестирование было сосредоточено на корпоративных длинноконтекстных рассуждениях. WEKA сообщила, что после внедрения NeuralMesh с Augmented Memory Grid количество одновременных пользователей увеличилось с примерно 600 человек в конфигурации только с DRAM до более чем 5 000 человек. Что касается пропускной способности токенов, данное решение достигло примерно 2 миллионов токенов в секунду, в то время как базовый уровень только с DRAM составлял менее 200 000 токенов в секунду. В ходе часового теста с 2 400 пользователями Augmented Memory Grid обслужила около 5 миллиардов токенов, а базовый уровень только с DRAM — около 700 миллионов токенов.

Тестовая среда состояла из 9 узлов OCI Bare Metal H100, каждый узел оснащен 8 GPU H100, всего 72 GPU. Согласно техническому блогу Oracle, каждый узел также оснащен 16 твердотельными накопителями Gen4 NVMe и двумя сетевыми картами 200Gb RDMA. Augmented Memory Grid расширила доступный объем кэша NVMe до 287 ТиБ, в то время как в базовой среде доступная DRAM составляла около 8,64 ТиБ. Для каждого смоделированного пользователя было установлено 100 000 токенов на ввод и 100 токенов на вывод, чтобы имитировать нагрузку на кэш при работе с длинными документами, многораундовыми сессиями и задачами агентов.

Ключевым моментом в таких тестах является не только количество GPU. В процессе выполнения длинноконтекстных рассуждений постоянно генерируется KV-кэш. Когда окно контекста расширяется до уровня 100 000 токенов, объем кэша и коэффициент попадания в кэш влияют на пропускную способность, задержку и эффективность использования GPU. В конфигурации только с DRAM после насыщения кэша легко возникают вытеснение кэша и повторные вычисления предварительного заполнения. Для таких приложений, как поиск, реферирование, помощь в написании кода и многораундовые агенты, это приводит к более высоким затратам на обслуживание и менее стабильному времени отклика.

Подход Augmented Memory Grid заключается в отделении KV-кэша от локальной видеопамяти GPU и DRAM и его размещении в высокопроизводительном кластерном хранилище токенов. В описании продукта на странице OCI компания WEKA поясняет, что данное решение основано на NeuralMesh и NeuralMesh Axon и использует RDMA и GPUDirect Storage для непрерывной передачи данных key-value кэша между памятью GPU и флэш-памятью, расширяя уровень кэша за счет инфраструктуры OCI Bare Metal GPU без добавления физической DRAM.

Согласно техническому блогу Oracle, данное тестирование перешло от ранней проверки TTFT к проверке производственных нагрузок, охватывающей плотность одновременных подключений, непрерывную пропускную способность, сохраняемость кэша и стабильность обслуживания при высоких нагрузках. В блоге также показано, что в тесте сравнивались стандартный базовый уровень обслуживания vLLM на HBM+DRAM и схема расширения кэша с внедрением Augmented Memory Grid. Результаты показали, что при достижении предела DRAM-кэша время отклика базового уровня колебалось, в то время как схема расширения кэша поддерживала более стабильный уровень обслуживания при более высокой степени параллелизма.

WEKA заявила, что NeuralMesh with Augmented Memory Grid уже доступна клиентам и размещена на Oracle Cloud Marketplace, причем OCI является ее первым облачным партнером. Для клиентов, развертывающих корпоративные ИИ-приложения, этот результат указывает на практическую проблему: в условиях быстрого роста спроса на длинноконтекстные рассуждения расширение вычислительных мощностей — не единственный вариант; расширение кэша, пути передачи данных и планирование кластера также влияют на стоимость одного токена и емкость онлайн-сервиса.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
IPO SpaceX в США установлен по цене $135, ожидается листинг 12 июня
2026-06-10
В Бразилии введено в эксплуатацию подводное оптоволокно протяженностью 800 км, которое принесет пользу более 1,5 миллиона человек
2026-06-10
Американская компания NetVendor запускает 5 функций на базе ИИ для ускорения управления поставщиками
2026-06-10
Intel помогает городу Беллфлауэр в США развернуть муниципальную сеть, планируется расширение до 50 городов
2026-06-10
Американские компании Moment и Ramp заключили партнерство: за 3 месяца приток средств на инвестиционные счета составил 1 миллиард долларов
2026-06-10
Американская компания Saturn Cloud запускает платформу Token Factory для операторов GPU-облаков
2026-06-10
Американская компания Lola GEN запускает глобальную сеть экстренной связи и представляет первый терминал
2026-06-10
Американская платформа для логических выводов d-Matrix Corsair запущена в серийное производство и отгружается
2026-06-10
WEKA (США) подтвердила длинноконтекстные рассуждения в Oracle Cloud, пропускная способность увеличена в 10 раз
2026-06-10
Британская компания Western Computer проведет совместно с Microsoft мероприятие по ERP и ИИ в США
2026-06-10
Последние новости
1
Испанское исследовательское судно начинает промысловую разведку рыбных ресурсов Ньюфаундленда
2
Испанская группа Costa инвестирует 300 миллионов долларов в свиноводческий проект в Парагвае
3
Бразильское кофеводство переходит к брендингу и устойчивому развитию
4
Ожидается, что чемпионат мира по футболу 2026 года увеличит экспорт мяса из Мексики на 5–12%
5
Национальная банановая корпорация Коста-Рики разрабатывает план экстренных мер для смягчения последствий Эль-Ниньо
6
Минсельхоз России планирует увеличить производительность труда в АПК на 12,6% к 2030 году
7
IPO SpaceX в США установлен по цене $135, ожидается листинг 12 июня
8
В Бразилии введено в эксплуатацию подводное оптоволокно протяженностью 800 км, которое принесет пользу более 1,5 миллиона человек
9
Американская компания NetVendor запускает 5 функций на базе ИИ для ускорения управления поставщиками
10
Импорт сои в Китай в мае превысил ожидания, достигнув 11,79 млн тонн