Открытое решение NVIDIA: пропускная способность тонкой настройки MoE увеличена до 3,7 раз
2026-06-26 13:54
В избр.

Репортаж от Wedoany,Компания NVIDIA выпустила открытое решение NeMo AutoModel, которое обеспечивает увеличение пропускной способности обучения в 3,4–3,7 раза при тонкой настройке моделей смешанных экспертов (MoE), а также снижает использование памяти GPU на 29–32%.

NeMo AutoModel совместим с интерфейсом прикладного программирования (API) Hugging Face Transformers v5. Пользователям достаточно добавить одну строку кода import для ускорения тонкой настройки MoE-моделей. На одном узле с 8 GPU NVIDIA H100 80GB, на примере модели Qwen3-30B-A3B, решение увеличило пропускную способность на GPU (TPS/GPU) с 3075 до 11340, что в 3,69 раза больше.

Архитектура MoE стала основным выбором для передовых моделей, однако связанные с ней инженерные задачи, такие как экспертный параллелизм, слияние коммуникаций и оптимизация ядер, требуют поддержки соответствующей инфраструктуры. Решение NVIDIA на базе Transformers v5 добавляет три технологии: экспертный параллелизм (Expert Parallelism, EP), DeepEP и TransformerEngine.

Технология экспертного параллелизма распределяет веса экспертов по нескольким GPU, снижая нагрузку на память одного GPU. На примере 8 GPU с ep_size=8, использование памяти MoE на каждом GPU снижается до одной восьмой от исходного значения. Для модели Qwen3 эта технология снижает пиковое использование памяти с 68,2 GiB до 48,1 GiB, то есть на 29%. Для модели Nemotron Nanomo использование памяти снижается с 62,1 GiB до 42,5 GiB, то есть на 32%. Освободившаяся память может быть использована для обучения с большими пакетами и более длинными последовательностями.

DeepEP обеспечивает слияние вычислений и коммуникаций. В традиционном режиме между распределением токенов и вычислениями экспертов существуют коммуникационные издержки. DeepEP с помощью оптимизированных ядер GPU объединяет операции распределения и агрегации токенов, позволяя процессу коммуникации перекрываться с вычислениями экспертов.

Ядро TransformerEngine ускоряет такие операции, как механизм внимания слияния, линейные слои и RMSNorm, воздействуя как на слои MoE, так и на обычные слои Transformer.

Эксперименты на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B-A3B показали, что по сравнению с Transformers v5, данное решение увеличивает пропускную способность обучения в 3,4–3,7 раза, одновременно снижая потребление памяти на 29–32%. NVIDIA также опубликовала результаты полной тонкой настройки модели Nemotron 3 Ultra 550B A55B в среде из 16 узлов H100, всего 128 GPU: TPS/GPU составило 815, TFLOP/s/GPU — около 293, а пиковое использование памяти — 58,2 GiB. NVIDIA отмечает, что Transformers v5 при таком масштабе не может работать из-за нехватки памяти.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
LG Electronics из Южной Кореи совместно с Nvidia ускоряет внедрение физического ИИ
2026-06-26
В первом квартале 2026 года доля Samsung Electronics на мировом рынке DRAM составила 38%, а SK Hynix и HBM вместе заняли 58%
2026-06-26
Китай опубликовал национальный стандарт для взаимосвязи интеллектуальных агентов
2026-06-26
Министерство связи Бразилии развернуло сигнал 4G в более чем 110 сельских районах штата Параиба
2026-06-26
Web Summit Rio в Бразилии: Искусственный интеллект переходит в стадию внедрения, фокус на агентов и управление
2026-06-26
Бразильская Positivo представляет корпоративный ноутбук Copilot+ PC
2026-06-26
Южнокорейский оператор связи SK Telecom инвестирует 480 миллионов долларов в американскую платформу AI-инфраструктуры
2026-06-26
Министерство связи Бразилии запускает частную сеть федерального правительства стоимостью 1 миллиард реалов
2026-06-26
Танзанийский широкополосный оператор Yas Fiber инвестирует 300 миллиардов шиллингов в расширение оптоволоконной сети Занзибара
2026-06-26
Американский регулятор связи FCC ужесточает правила для подводных коммуникационных кабелей
2026-06-26
Последние новости
1
Португальская компания Laso поставила пять комплектов ветроэнергетического оборудования на Мадейру и Порту-Санту
2
Агентство по охране окружающей среды Великобритании завершило первую крупную модернизацию плотины Милфорд
3
Египетская компания Misr Cement планирует инвестировать 7-8 млн долларов в каждый завод для реализации проектов по альтернативному топливу
4
Проект электропередачи Khavda IV C в Индии интегрирует 7 ГВт мощности в национальную энергосистему
5
Британская Centrica запускает пилотный проект по микросетям постоянного тока
6
Anglian Water завершила проекты ультрафиолетовой обработки и финальной дезинфекции на водоочистной станции
7
Дочерняя компания MRCB из Малайзии совместно с Perintis Akal Sdn Bhd разрабатывает центр обработки данных мощностью 65 МВт стоимостью 2,1 млрд ринггитов
8
Японская компания Greenphard получила 120 миллионов иен на развитие AI-виртуальной электростанции
9
Masdar и Repsol к концу 2026 года инвестируют 849 млн евро в портфель возобновляемой энергии в Испании
10
GRK получила контракт на реконструкцию участка национальной дороги 15 в Котке, стоимостью около 11 миллионов евро