Открытое решение NVIDIA: пропускная способность тонкой настройки MoE увеличена до 3,7 раз_Глобальные новости

Открытое решение NVIDIA: пропускная способность тонкой настройки MoE увеличена до 3,7 раз

2026-06-26 13:54

В избр.

Репортаж от Wedoany，Компания NVIDIA выпустила открытое решение NeMo AutoModel, которое обеспечивает увеличение пропускной способности обучения в 3,4–3,7 раза при тонкой настройке моделей смешанных экспертов (MoE), а также снижает использование памяти GPU на 29–32%.

NeMo AutoModel совместим с интерфейсом прикладного программирования (API) Hugging Face Transformers v5. Пользователям достаточно добавить одну строку кода import для ускорения тонкой настройки MoE-моделей. На одном узле с 8 GPU NVIDIA H100 80GB, на примере модели Qwen3-30B-A3B, решение увеличило пропускную способность на GPU (TPS/GPU) с 3075 до 11340, что в 3,69 раза больше.

Архитектура MoE стала основным выбором для передовых моделей, однако связанные с ней инженерные задачи, такие как экспертный параллелизм, слияние коммуникаций и оптимизация ядер, требуют поддержки соответствующей инфраструктуры. Решение NVIDIA на базе Transformers v5 добавляет три технологии: экспертный параллелизм (Expert Parallelism, EP), DeepEP и TransformerEngine.

Технология экспертного параллелизма распределяет веса экспертов по нескольким GPU, снижая нагрузку на память одного GPU. На примере 8 GPU с ep_size=8, использование памяти MoE на каждом GPU снижается до одной восьмой от исходного значения. Для модели Qwen3 эта технология снижает пиковое использование памяти с 68,2 GiB до 48,1 GiB, то есть на 29%. Для модели Nemotron Nanomo использование памяти снижается с 62,1 GiB до 42,5 GiB, то есть на 32%. Освободившаяся память может быть использована для обучения с большими пакетами и более длинными последовательностями.

DeepEP обеспечивает слияние вычислений и коммуникаций. В традиционном режиме между распределением токенов и вычислениями экспертов существуют коммуникационные издержки. DeepEP с помощью оптимизированных ядер GPU объединяет операции распределения и агрегации токенов, позволяя процессу коммуникации перекрываться с вычислениями экспертов.

Ядро TransformerEngine ускоряет такие операции, как механизм внимания слияния, линейные слои и RMSNorm, воздействуя как на слои MoE, так и на обычные слои Transformer.

Эксперименты на моделях Qwen3-30B-A3B и Nemotron 3 Nano 30B-A3B показали, что по сравнению с Transformers v5, данное решение увеличивает пропускную способность обучения в 3,4–3,7 раза, одновременно снижая потребление памяти на 29–32%. NVIDIA также опубликовала результаты полной тонкой настройки модели Nemotron 3 Ultra 550B A55B в среде из 16 узлов H100, всего 128 GPU: TPS/GPU составило 815, TFLOP/s/GPU — около 293, а пиковое использование памяти — 58,2 GiB. NVIDIA отмечает, что Transformers v5 при таком масштабе не может работать из-за нехватки памяти.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com