12 марта компания Sugon официально представила свою первую полностью самостоятельную сеть с нулевыми потерями и высокой скоростью 400G — scaleFabric. Это знаменует собой значительный прорыв Китая в области собственной технологии RDMA высокого класса и заполняет технологический пробел в высокоскоростном соединении для сверхмасштабных интеллектуальных вычислений.
Выступая на церемонии запуска, академик Китайской инженерной академии У Хэцюань заявил, что представленный scaleFabric является первой в Китае самостоятельно разработанной системой высокоскоростной сети на основе собственной технологии RDMA. Его производительность соответствует мировым стандартам, и он прошел практическую проверку в масштабе, что позволило преодолеть технологическую монополию зарубежных компаний и восполнить недостатки отечественных высокоскоростных сетей.
Почему высокоскоростные сети так важны? По мнению академика У Хэцюаня, высокоскоростные сети являются ключевой технологией инфраструктуры вычислительных мощностей, и их независимость и управляемость напрямую влияют на безопасность и качество развития национальной вычислительной инфраструктуры.
«Если сравнить центр интеллектуальных вычислений с гигантским вычислительным заводом, где GPU — это рабочие на производственной линии, то высокоскоростная сеть — это конвейерная лента, соединяющая их», — образно объяснил старший вице-президент Sugon Ли Бинь журналистам. — «Если конвейер недостаточно быстрый и стабильный, сколько бы рабочих ни было, они будут простаивать в ожидании».
И в течение долгого времени именно эта «конвейерная лента» была слабым звеном в построении системы интеллектуальных вычислений в Китае.
Дилемма отечественных интеллектуальных вычислений
В настоящее время обучение больших моделей ИИ вступило в эпоху кластеров на десятки тысяч и даже сотни тысяч карт. Возьмем, к примеру, сверхмасштабные модели: их обучение требует совместной работы тысяч и даже десятков тысяч GPU в течение нескольких недель или даже месяцев. В этом процессе объем обмена данными между чипами растет экспоненциально, а производительность сети напрямую определяет эффективность вычислительной мощности.
Однако долгое время рынок высокоскоростных сетей высокого класса в Китае был под контролем зарубежных компаний. В целом существует две основные сетевые модели: одна — это импортные сети IB, представленные зарубежными технологическими компаниями, которые обладают высокой производительностью, но дороги и имеют неконтролируемые сроки поставки; другая — это маршрут RoCE, который использует технологию RDMA поверх Ethernet. Этот вариант совместим с IP-экосистемой и сыграл важную роль на начальных этапах создания вычислительных мощностей и в сценариях организации сетей малого и среднего масштаба, заложив хорошую основу для развития отечественной сетевой индустрии. Однако с наступлением эры кластеров на десятки тысяч карт для интеллектуальных вычислений требования к масштабу и производительности сети возросли экспоненциально, и RoCE постепенно сталкивается с проблемами использования пропускной способности, контроля задержек и т.д. при организации крупномасштабных сетей. В то же время его ключевые сетевые чипы по-прежнему в основном зависят от зарубежных производителей, что стало звеном, требующим дальнейшего прорыва в процессе автономизации цепочки поставок.
Академик У Хэцюань заявил: «Долгое время рынок высокоскоростных сетей высокого класса находился под монополией зарубежных технологий, что стало одним из ключевых узких мест в автономном развитии индустрии вычислительных мощностей в Китае». 
Ранее выпущенный Министерством промышленности и информатизации «План действий по взаимосвязи вычислительных мощностей» четко указывает на необходимость ускорения создания системы взаимосвязи вычислительных мощностей и повышения эффективности использования ресурсов общедоступных вычислительных мощностей. В то же время «Пятнадцатый пятилетний план» также включает новую инфраструктуру в число ключевых направлений национального развития, четко определяя построение единой национальной сети вычислительных мощностей, чтобы обеспечить прочную поддержку модернизации промышленности и развития цифровой интеллектуализации в период «Пятнадцатой пятилетки» и даже на более длительный срок.
В этом контексте запуск scaleFabric от Sugon приобретает особое стратегическое значение.
Полностью самостоятельная разработка: 100% независимость от базовых чипов до программного обеспечения верхнего уровня
Как сообщается, после трех лет упорной работы Sugon добился 100% полной самостоятельной разработки scaleFabric, от базового оборудования до программного обеспечения верхнего уровня. Область самостоятельной разработки охватывает ключевые звенья, включая ключевые IP-адреса, чипы коммутаторов, сетевые карты, коммутаторы, драйверы и программное обеспечение для управления.
Это означает, что Китай обладает полностью независимой технологической системой и правами интеллектуальной собственности в области высокопроизводительных сетей и больше не зависит от других.
Что касается показателей производительности, scaleFabric достиг международного передового уровня:
Сетевая карта scaleFabric400 на базе интерфейса PCIe5.0
— Пропускная способность порта достигает 400 Гбит/с, сквозная задержка связи снижена до 0,9 микросекунды.
Коммутатор scaleFabric400
— Пропускная способность одного порта достигает 800 Гбит/с, общая коммутационная емкость может достигать двунаправленных 64 Тбит/с, задержка коммутации составляет около 260 наносекунд, поддерживается расширение портов 800G×40 или 400G×80.
— Легко поддерживает развертывание кластеров до 114 000 карт, при этом общая стоимость сети может быть снижена на 30%.
«В тестовой среде сетевая эффективность типичных задач обучения ИИ в кластере из 30 000 карт значительно повысилась. Отечественные сетевые продукты не только пригодны к использованию, но и уже достигли уровня удобства и надежности», — заявил вице-президент компании Sugon Information Industry (Пекин) Ли Лю.
Технологический путь: почему выбрана собственная технология IB
В области высокоскоростных сетей выбор технологического пути имеет решающее значение. В настоящее время в отрасли существует два основных пути: первый — это путь собственной технологии InfiniBand, который отличается превосходной производительностью, но долгое время находился под монополией зарубежных компаний; второй — это путь RoCE, то есть внедрение технологии RDMA на основе Ethernet. На основе глубокого анализа сущности технологий Sugon выбрал первый путь.
По словам главного инженера отдела высокоскоростных сетевых соединений Sugon Вань Вэя, IB — это специализированная сеть, созданная для высокопроизводительных вычислений, ее стек протоколов разработан специально для высокоскоростной связи, а коммутаторы используют режим коммутации VCT, что позволяет контролировать задержку в пределах 300 наносекунд.
Фактически, с точки зрения практики применения в отрасли, производительность различных технологических путей в сценариях крупномасштабных интеллектуальных вычислений постепенно дифференцируется. RoCE использует механизм коммутации Ethernet «store-and-forward» (хранение и пересылка), при котором пакеты данных должны быть полностью приняты перед пересылкой, что создает объективную разницу в контроле задержек по сравнению с архитектурой IB, разработанной изначально. Данные отраслевых испытаний показывают, что задержка обработки RoCE на коммутационных узлах обычно более чем в два раза превышает задержку решения на основе IB.
Еще более примечательны различия в базовом дизайне механизмов управления потоком. IB использует механизм управления потоком на основе кредитов, который подтверждает достаточность ресурсов на принимающей стороне перед передачей данных, что в корне предотвращает потерю пакетов. В то время как RoCE полагается на механизм PFC (приоритетное управление потоком) для управления перегрузками, что является пассивным методом регулирования «обнаружения и решения проблемы». По мнению отраслевых экспертов, с расширением масштабов кластеров механизм PFC может легко вызвать цепную реакцию, приводя к так называемым «штормам PFC» или состоянию взаимоблокировки, что требует от операционных команд значительных усилий по настройке алгоритмов управления перегрузками и конфигурации уровней.
«Для крупномасштабных кластеров на десятки тысяч карт эти различия напрямую определяют, сможет ли система работать стабильно», — говорит старший вице-президент Sugon Ли Бинь. — «Поэтому в выборе технологического пути мы решили идти по самому трудному, но самому правильному пути».
Внедрение и проверка: стабильная работа кластера из 30 000 карт в ключевых узлах
Технологические инновации в конечном итоге должны выдержать проверку практикой.
Как сообщается, scaleFabric уже был внедрен в ключевых узлах национального интернета суперкомпьютеров, где одновременно запущены 3 кластера на десятки тысяч карт, и кластеры масштабом почти в десятки тысяч карт стабильно работают уже более 6 месяцев. Это первая проверка отечественной высокоскоростной сети в условиях такой масштабной реальной нагрузки.
«В реальных приложениях время восстановления сети после сбоя составляет менее 1 миллисекунды, и задачи обучения совершенно не ощущают сетевых колебаний», — заявил вице-президент компании Sugon Information Industry (Пекин) Ли Лю. — «Это обеспечивает надежную гарантию для крупномасштабного обучения моделей ИИ».
С точки зрения затрат, scaleFabric, соответствуя по производительности ведущим мировым продуктам IB, примерно на 30% дешевле решений IB, представленных на рынке. Это решает как проблему высокой стоимости импортных решений IB, так и проблему недостаточной производительности и высоких эксплуатационных расходов сетей RoCE в сценариях с крупными кластерами.
Создание экосистемы: от единичного прорыва к отраслевому сотрудничеству
Появление продукта — это только начало, создание полноценной отраслевой экосистемы — это долгосрочная стратегия развития.
Как сообщается, в рамках «Проектной группы по оптимизации сетей центров обработки данных», созданной при Совместной лаборатории открытой архитектуры AI-вычислений «Организации фотосинтеза», Sugon сотрудничает с предприятиями всей цепочки поставок для продвижения разработки стандартов автономных сетей и создания сценарных решений.
Это означает, что рождение scaleFabric — это не просто прорыв отдельного продукта, а отправная точка для экосистемы отечественных высокопроизводительных сетей. От проектирования чипов до производства оборудования, от разработки программного обеспечения до системной интеграции формируется полноценная цепочка поставок.
«В будущем, когда все больше предприятий будут использовать отечественные сети, вся отрасль войдет в благоприятный цикл», — говорит старший вице-президент Sugon Ли Бинь. — «Чем больше сценариев применения, тем быстрее будет итерация продуктов; чем лучше производительность продуктов, тем больше масштаб их применения».
Завершение последней детали пазла китайских высокопроизводительных интеллектуальных вычислений
«Высокоскоростная сеть RDMA — это „артерия вычислительной мощности“ кластера интеллектуальных вычислений», — так академик У Хэцюань определил важность высокоскоростных сетей. Запуск scaleFabric от Sugon также предоставляет новые решения для построения отечественной системы интеллектуальных вычислений по нескольким направлениям.
В настоящее время scaleFabric реализует 100% полную самостоятельную разработку, достигая международного передового уровня по ключевым показателям, таким как задержка, пропускная способность и масштаб развертывания сетей, предоставляя отечественным пользователям новый технологический выбор, обеспечивая поддержку отечественных сетей для высокопроизводительных вычислительных сценариев, таких как центры интеллектуальных вычислений и суперкомпьютерные центры, и способствуя построению более полной и независимой цепочки поставок вычислительных мощностей.
Примечательно, что практика одновременного запуска 3 кластеров на десятки тысяч карт на основе scaleFabric в ключевых узлах национального интернета суперкомпьютеров показывает, что отечественные продукты высокоскоростных сетей уже обладают способностью поддерживать крупномасштабное коммерческое развертывание и могут удовлетворять практические потребности таких сценариев, как обучение больших моделей ИИ и выполнение суперкомпьютерных задач. В то же время scaleFabric использует собственную технологию InfiniBand, что дополняет существующий путь RoCE, предоставляет пользователям больше выбора и способствует формированию более разнообразной и здоровой отраслевой экосистемы.
Самое главное, что на стратегическом государственном уровне он соответствует ключевым направлениям развития новой инфраструктуры, определенным в «Пятнадцатом пятилетнем плане», реализует соответствующие меры, касающиеся «Искусственного интеллекта+», и закладывает прочную основу для развития цифровой экономики.
От чипов до сетей, от оборудования до программного обеспечения, китайские интеллектуальные вычисления строят полную, независимую и устойчивую отраслевую систему. «В настоящее время искусственный интеллект распространяется повсеместно, вычислительная мощность становится ключевой производительной силой, а конкуренция в области вычислительных мощностей перерастает в игру всей экосистемы, включающей совместную работу вычислений, сетей и хранения данных», — заявил академик У Хэцюань. — «Надеюсь, что компания Sugon, используя это как новую отправную точку, будет продолжать технологические инновации, углублять отраслевое сотрудничество и строить независимую, передовую и безопасную систему технологий и продуктов высокоскоростных сетей».









