Китайская команда завершила пост-тренировку полных параметров модели с триллионом параметров на основе отечественных вычислительных мощностей_Глобальные новости

Китайская команда завершила пост-тренировку полных параметров модели с триллионом параметров на основе отечественных вычислительных мощностей

2026-06-09 13:54

В избр.

Репортаж от Wedoany，Команда проекта платформы AI-тренировок Шэньчжэньского колледжа Хэтао совместно с Харбинским технологическим институтом (Шэньчжэнь), Шэньчжэньским институтом больших данных, Huawei GTS (Global Technical Services) и другими организациями провела совместные исследования по тренировке крупных моделей на отечественных вычислительных мощностях. На основе кластера отечественных вычислительных мощностей Ascend 910C в течение одного месяца была успешно реализована стабильная работа полной параметрической непрерывной тренировки и SFT (Supervised Fine-Tuning) модели DeepSeek-V4-Pro. Общее количество шагов тренировки превысило 1500, MFU (Model FLOPS Utilization) модели превысил 30%, а эффективность ключевых тренировочных операторов повысилась примерно на 14%.

Это первая в отрасли инженерная практика пост-тренировки полных параметров DeepSeek-V4-Pro, выполненная сторонней организацией на основе кластера отечественных вычислительных мощностей, что знаменует переход отечественной AI-инфраструктуры от этапа развертывания вывода и легковесной тонкой настройки к этапу пост-тренировки полных параметров сверхбольших моделей.

DeepSeek-V4-Pro — это флагманская модель с открытым исходным кодом MoE (Mixture of Experts) с 1,6 триллиона параметров, использующая инновационные механизмы, такие как гибридное разреженное внимание CSA+HCA и соединение mHC. По сравнению с предыдущим поколением DeepSeek-V3/R1, она предъявляет более высокие требования к отечественным тренировочным фреймворкам.

В ходе совместных исследований была достигнута стабильная работа пост-тренировки полных параметров DeepSeek-V4-Pro на кластере отечественных вычислительных мощностей Ascend 910C с тысячами карт. Модель прошла более 1500 шагов итерации без пропусков итераций или аномалий NaN. Эффективность ключевых тренировочных операторов повысилась примерно на 14% по сравнению с начальной версией, конечный MFU стабильно достиг 34,9%, а время одного шага тренировки стабильно составило 27 секунд. Команда также завершила полный конвейер непрерывной тренировки и SFT для DeepSeek-V4-Flash.

Результаты проекта обладают воспроизводимой и инженерно-реализуемой способностью стабильной тренировки триллионной MoE-модели на отечественных вычислительных мощностях. Уже завершена замкнутая проверка промышленного сценария автоматизированного операционного моделирования, что свидетельствует о способности отечественных вычислительных мощностей выполнять специализированное усиленное обучение отраслевых крупных моделей в короткие сроки и с низкими затратами.

На техническом уровне проект достиг трех прорывов: во-первых, успешно построена схема распределенного хранения, охватывающая состояния весов, градиентов, активаций и оптимизаторов, обеспечивающая совместную работу параллелизма данных, тензорного параллелизма, конвейерного параллелизма и параллелизма экспертов; во-вторых, оптимизированы операторы маршрутизации MoE и разреженного внимания, создан механизм балансировки нагрузки экспертов, эффективно смягчающий коммуникационные заторы и дисбаланс нагрузки; в-третьих, построена система долгосрочного мониторинга с полной визуализацией показателей, при этом в ходе многодневной непрерывной тренировки не наблюдалось потери управления Loss или значений NaN.

На этапе проверки возможностей проект разработал эксперимент по усилению способности крупной модели к математическому моделированию. Команда создала рабочий процесс генерации данных SFT-моделирования, получив 3000 высококачественных образцов SFT для задач математического моделирования, охватывающих 4 типа целевых задач и 3 формы постановки задач. Результаты тренировки показали: LM Loss модели сошелся к 0,2056, MTP 1 Loss сошелся к 0,2538, кривая градиента стабильна. Оценка Benchmark показала, что четыре ключевых показателя модели были полностью улучшены, при этом ORGEval WL повысился более чем на 5 процентных пунктов, а способности к сложным рассуждениям и моделированию значительно усилились.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Китай

Информация и коммуникация Искусственный интеллект Интеллектуальная обработка данных

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com