Недавно компания Mianbi Intelligence совместно с Университетом Цинхуа и сообществом OpenBMB официально выпустила и открыла исходный код своего новейшего достижения в области обучения больших моделей с низкой битностью — BitCPM-CANN. Это первая большая троичная (1.58-битная) модель, полностью обученная по сквозному принципу на отечественной вычислительной платформе (Huawei Ascend), исходный код которой открыт.
Долгое время физические ограничения памяти были проблемой для масштабного применения больших моделей, и память становится одним из самых дефицитных ресурсов в глобальной цепочке поставок ИИ. В этом контексте BitCPM-CANN использует метод обучения с учетом квантования, заставляя каждый бит работать с максимальной информационной плотностью и эффективностью хранения знаний. При этом 6-кратная оптимизация видеопамяти, предлагаемая BitCPM-CANN, позволяет предприятиям повышать производительность моделей или плотность обслуживания без увеличения физической памяти.
Стоит отметить, что вся цепочка обучения BitCPM-CANN — от низкоуровневых операторов квантования и алгоритмов обучения с учетом квантования до полной стратегии параллелизации и среды обучения — была изначально реализована на платформе Huawei Ascend. Модель включает четыре размера: 0.5B, 1B, 3B и 8B, и при поэлементном сравнении с семейством полносвязных моделей MiniCPM-4 аналогичного размера демонстрирует превосходную производительность. Это первый публичный результат на платформе Ascend, где сквозное 1.58-битное обучение было завершено и сопоставлено с полносвязными аналогами, при этом масштаб модели сразу же был доведен до уровня 8B.
Отраслевые эксперты считают, что выпуск и открытие исходного кода BitCPM-CANN позволили создать полный замкнутый цикл, включающий отечественные NPU, отечественные модели и отечественные среды обучения, предоставив индустрии конечного ИИ готовое к использованию решение на основе моделей с низкой битностью.
