Репортаж от Wedoany,7 июля, Пекин. Китайская компания Kingsoft Cloud во втором полугодии ускорит строительство кластеров GPU для удовлетворения быстрорастущих потребностей ключевых клиентов в вычислительных мощностях ИИ. Соответствующий спрос в основном исходит от китайской группы Xiaomi и команды по разработке крупных языковых моделей Alibaba. При этом потребности Xiaomi в вычислительных мощностях GPU Kingsoft Cloud выросли с кластера из 10 000 ускорителей до сверхмасштабного кластера, а соответствующий бюджет увеличился с первоначальных почти 4 млрд юаней до более чем 10 млрд юаней.
Ключевым аспектом этого расширения является способность поставлять крупномасштабные кластеры GPU. Обучение и инференс крупных языковых моделей предъявляют высокие требования к количеству серверов, межсоединениям GPU, пропускной способности хранилищ, сетевой пропускной способности, электропитанию, охлаждению и планированию кластеров. Простая закупка GPU-серверов не позволяет напрямую сформировать доступные вычислительные мощности. Облачным провайдерам необходимо завершить комплексное развертывание ресурсов ЦОД, восьмикарточных серверов, коммутационных сетей, распределенных хранилищ, контейнерного планирования, платформ обучения, мониторинга сбоев и систем эксплуатации, чтобы преобразовать аппаратные ресурсы в услуги ИИ-вычислений, которые клиенты могут непрерывно использовать.
Команда по разработке крупных языковых моделей Alibaba уже подписала с Kingsoft Cloud пятилетний контракт на аренду вычислительных мощностей, охватывающий более 3000 восьмикарточных GPU-серверов. Исходя из ежемесячной арендной платы на момент подписания, после полной поставки ежемесячный оборот составит около 300 млн юаней, а годовая выручка превысит 4 млрд юаней. Для облачных провайдеров такие долгосрочные контракты на аренду важны не только как источник увеличения заказов и доходов, но и как способ повысить определенность в строительстве кластеров GPU. Строительство GPU-кластеров требует значительных первоначальных вложений и длительных сроков; если спрос клиентов нестабилен, легко возникает недозагрузка оборудования. Долгосрочные контракты позволяют более четко спланировать темпы строительства, закупку серверов, размещение в стойках и ресурсы для эксплуатации.
Повышение спроса со стороны Xiaomi отражает рост потребления вычислительных мощностей в сценариях крупных языковых моделей, смартфонов, автомобилей и AIoT. Потребности Xiaomi в ИИ связаны не только с обучением отдельных моделей, но также могут включать периферийный ИИ на смартфонах, интеллектуальные салоны автомобилей, обработку данных для автономного вождения, голосовое взаимодействие, алгоритмы обработки изображений, взаимодействие IoT-устройств и внутренние исследовательские платформы компании. Переход от кластера из 10 000 ускорителей к сверхмасштабному кластеру означает, что задачи обучения, тонкой настройки, инференса и обработки данных превращаются из проектных потребностей в долгосрочные потребности в инфраструктуре.
Ранее Kingsoft Cloud уже провела несколько раундов модернизации на уровне платформ интеллектуальных вычислений и ИИ. Ее платформа интеллектуальных вычислений "Kingsoft Cloud Xingliu" была обновлена с платформы управления ресурсами до комплексной платформы полного цикла обучения и инференса ИИ, охватывающей такие аспекты, как планирование гетерогенных ресурсов, управление задачами обучения, услуги инференса и API моделей. Для клиентов крупных языковых моделей базовые GPU — это лишь основа; на эффективность использования на самом деле влияет то, насколько быстро могут быть распределены ресурсы, стабильно ли выполняются задачи, автоматически ли обрабатываются сбои и насколько хорошо сопряжены процессы обучения и инференса.
Строительство кластеров GPU также будет стимулировать спрос на ряд коммуникационного оборудования и оборудования ЦОД. Более 3000 восьмикарточных GPU-серверов соответствуют большому количеству высокоскоростных сетевых соединений, коммутаторов, оптических модулей, сетевых карт, устройств хранения, стоек, систем электропитания и распределения, а также систем жидкостного или воздушного охлаждения. Чем больше масштаб вычислительных мощностей, тем важнее сетевая архитектура; обучение крупных языковых моделей требует координации нескольких машин и нескольких ускорителей, и если сетевая задержка и пропускная способность недостаточны, загрузка GPU будет снижена, что в конечном итоге повлияет на фактическую эффективность обучения клиентов.
Задача расширения Kingsoft Cloud во втором полугодии будет сосредоточена на темпах поставок. Бюджет Xiaomi в размере более 10 млрд юаней соответствует более крупному долгосрочному пулу вычислительных мощностей, а пятилетний контракт Alibaba — серверному кластеру с четким графиком производства. Для облачных провайдеров в дальнейшем необходимо будет увязать поставку GPU-серверов, размещение в ЦОД, настройку сети, подключение платформы и приемку клиентами. Только после стабильной поставки кластеров вычислительных мощностей они смогут быть преобразованы в доходы от обучения, инференса и облачных услуг.









