Репортаж от Wedoany,Модели ИИ развиваются с поразительной скоростью. Однако рост объема памяти и пропускной способности значительно отстает от темпов расширения моделей. Это и есть так называемая проблема «стены памяти», которая давно беспокоит отрасль. Более того, текущая основная технология 2.5D-упаковки (например, CoWoS от TSMC) представляет собой расширение в одной плоскости, что ограничивает ресурсы для трассировки и компоновки, снижает плотность интеграции. В сценариях с высокими вычислительными нагрузками ИИ площадь чипа невозможно дополнительно уменьшить.
Когда горизонтальное расширение становится невозможным, технология 3D-стекинга, позволяющая «расти вверх», становится неизбежным выбором. Для китайских отечественных чипов ИИ, в условиях ограниченных производственных мощностей передовых техпроцессов и проблем с поставками высококлассной HBM, 3D-стекинг предлагает жизнеспособный путь «обмена пространства на производительность», позволяя обойти некоторые технологические ограничения.
01 Технология упаковки: от «плоской укладки плитки» до «строительства объемного здания»
В области передовой упаковки технология 2.5D, интегрируя несколько кристаллов на кремниевом интерпозере, обеспечивает высокоскоростное межсоединение и связь на коротких расстояниях между чипами. Кремниевый интерпозер обычно использует технологию сквозных кремниевых переходов (TSV) для вертикального соединения, что обеспечивает высокую плотность и производительность межсоединений, значительно повышая общую производительность системы.
Технология 3D-стекинга, путем вертикальной укладки чипов или упаковок, например, с использованием TSV или гибридного соединения, позволяет увеличить функциональность, повысить плотность интеграции, снизить стоимость упаковки и, за счет сокращения длины межсоединений, способствует повышению скорости работы. Благодаря 3D-стекингу функциональные блоки, которые в 2.5D-упаковке были разложены на разных чипах в одной плоскости, такие как вычислительная логика, массивы памяти и интерфейсы ввода-вывода, могут быть физически сложены и электрически соединены в вертикальном измерении, преодолевая физические ограничения планарной интеграции.
Технологии 3D-упаковки и 3.5D-упаковки как раз и используют 3D-стекинг. Технология 3D-упаковки, путем вертикальной укладки нескольких кристаллов (Bare Die) и использования передовых технологий межсоединений, таких как TSV и микровыступы, для связи между слоями, преодолевает физические ограничения традиционной планарной интеграции. Такая архитектура значительно сокращает пути передачи электронов, существенно снижая задержки и энергопотребление, одновременно обеспечивая чрезвычайно высокую пропускную способность межсоединений и плотность упаковки. Технология 3.5D-упаковки, в свою очередь, на основе 3D-вертикальной укладки, дополнительно вводит 2.5D-кремниевый интерпозер для горизонтального расширения, формируя композитную архитектуру «объем + плоскость».
В настоящее время основные китайские отечественные чипы ИИ, такие как Cambricon, Kunlunxin, Biren Technology, Tianshu Zhixin и другие, в основном используют технологию 2.5D-упаковки для параллельного соединения вычислительных кристаллов GPU/ИИ с памятью HBM, используя кремниевый интерпозер и RDL (слой перераспределения) для создания высокоплотной сети межсоединений. Однако пропускная способность таких решений с внешней памятью обычно составляет всего 1–4 ТБ/с, и, ограниченная площадью плоскости, плотность интеграции и пропускная способность межсоединений уже приближаются к физическому пределу.
02 Международные гиганты: 3D-стекинг и 3.5D уже вышли на стадию массового производства
Международные полупроводниковые гиганты уже давно внедряют 3D/3.5D, и некоторые продукты уже перешли в стадию массового производства и поставок.
В 2023 году AMD выпустила серию AI-ускорителей Instinct MI300, которые стали чипами, использующими технологию 3.5D-упаковки и запущенными в массовое производство. AMD описывает свою технологию как объединение 3D-стекированных GPU и чипов ввода-вывода с помощью гибридного соединения, в сочетании со стандартной 2.5D-упаковкой. Решение AMD для 3.5D-упаковки объединяет технологии CoWoS (2.5D-кремниевый интерпозер) и SoIC (3D-гибридное соединение) от TSMC, вертикально укладывая чипы GPU/CPU поверх чипа ввода-вывода с помощью Cu-Cu гибридного соединения, а затем соединяя их параллельно с памятью HBM через кремниевый интерпозер CoWoS.
В декабре 2024 года компания Broadcom впервые публично представила первую в отрасли платформу 3.5D XDSiP (eXtreme Dimension System in Package). Она объединяет технологию 2.5D и 3D-IC интеграцию с технологией Face-to-Face (F2F). Основой платформы является технология укладки Face-to-Face (F2F), которая использует бесвыступное гибридное медное соединение (HCB) для прямого соединения верхних металлических слоев верхнего и нижнего чипов, обеспечивая прямое соединение верхних металлических слоев двух чипов. По сравнению с традиционной технологией Face-to-Back (F2B), F2F не требует использования TSV, что позволяет увеличить количество сигнальных соединений в 7 раз, снизить энергопотребление на интерфейсе между чипами на 90% и уменьшить задержки между вычислительными, памятью и элементами ввода-вывода внутри 3D-стека. В 2026 году был поставлен первый в отрасли заказной вычислительный SoC на 2 нм на базе XDSiP для компании Fujitsu, предназначенный для суперкомпьютерного кластера ИИ.
Intel Технология упаковки EMIB 3.5D от Intel объединяет EMIB 2.5D (горизонтальное соединение с помощью встроенного кремниевого моста) и Foveros Direct 3D (вертикальная укладка с гибридным соединением), поддерживая гибкую гетерогенную интеграцию различных чипов и совместимость с отраслевым стандартом UCIe. Серия SoC Intel Data Center GPU Max, созданная с использованием EMIB 3.5D, является самым сложным серийным гетерогенным чипом за всю историю, содержащим более 100 миллиардов транзисторов, 47 активных модулей и 5 техпроцессов.
Недавно технология HBC от Qualcomm использует инновационную специализированную архитектуру near-memory computing, объединяя вычисления с памятью сверхвысокой пропускной способности с помощью 3D-стекированного кремниевого решения, решая проблему узкого места передачи данных в ИИ-вычислениях. AI250, оснащенный технологией HBC первого поколения, обеспечивает отраслевую пропускную способность 133 ТБ/с на одной карте, что в 18 раз превышает эффективную пропускную способность памяти AI200 с LPDDR5X; AI300 с технологией HBC второго поколения совершает еще более значительный скачок производительности, увеличивая эффективную пропускную способность памяти в 54 раза по сравнению с AI200.
03 Китайские производители чипов ИИ коллективно выбирают 3D-стекинг
Перед лицом лидирующих позиций международных гигантов в области 3D-стекинга и 3.5D-упаковки, а также ограничений на производственные мощности передовых техпроцессов и поставки высококлассной HBM в Китае, китайские производители чипов ИИ активно исследуют возможность вертикальной интеграции блоков памяти и вычислений с помощью технологии 3D-стекинга.
Архитектура Zixuan от Unisplendour Group, основанная на 3D DRAM, впервые предлагает 3.5D-схему гетерогенной интеграции с пропускной способностью памяти до 30 ТБ/с. В режиме near-memory computing PNM задержка доступа к памяти снижается до 1/18, а моделирование показывает, что при равной вычислительной мощности пропускная способность токенов в 1.5-2 раза выше, чем у серии B200 от NVIDIA, и может быть масштабно произведена на основе китайской цепочки поставок.
Следующее поколение чипов ИИ от TsingMicro использует 3.5D-гетерогенную укладку, реализуя трехмерное вертикальное укладывание реконфигурируемых вычислительных кристаллов и кристаллов DRAM. Благодаря вертикальной интеграции «вычислительный кристалл + кристалл памяти» в условиях ограниченных передовых техпроцессов, архитектурные инновации позволяют добиться скачка производительности. Их второй 3D-реконфигурируемый чип революционно использует технологию 3D-объединения памяти и вычислений + четырехкристальную Chiplet-интеграцию, модернизируя традиционный 2D-плоскостной однополосный режим передачи в объемную архитектуру «4 вычислительные полосы + 4-слойная эстакада памяти», значительно повышая эффективность пропуска данных и плотность вычислений, формируя значительные преимущества в производительности, энергоэффективности и гибкости.
Чип A4E 3D TokenPU от компании Suanmiao Technology, предназначенный для вывода больших моделей, был официально выпущен 15 июня, реализовав специализированный процессор для больших моделей на основе китайской отечественной цепочки поставок и архитектуры 3D-гибридной укладки. Первое поколение продукта A4E вертикально укладывает 8 слоев пластин памяти на вычислительную логическую пластину, используя технологию сквозных кремниевых переходов (TSV) и выступов (bump) для микронного межсоединения, сокращая традиционное «миллиметровое» расстояние передачи между чипами на два порядка, обеспечивая сверхбольшую пропускную способность доступа к памяти в 16 ТБ/с, эффективно снимая проблему «голода данных».
Компания IntelliFusion объявила, что разрабатываемый ею чип для вывода внедряет архитектуру 3D-стекированной памяти: использование архитектуры 3D-стекированной памяти позволяет получить более высокую пропускную способность и меньшую задержку доступа, преодолеть «стену памяти» и повысить эффективность вывода.
Следующее поколение чипов компании Lingchuan Technology, ранее являвшейся подразделением гетерогенных вычислений и чипов Kuaishou Group, было выпущено в апреле этого года. Оно использует китайскую отечественную технологию 3D-стекинга, впервые внедряя архитектуру 3D near-memory, и имеет специальные оптимизации для решения ключевых отраслевых проблем, таких как отвод тепла, согласованность и надежность. Первый чип SL200 уже продан в количестве почти 100 000 штук и развернут в интернет-компаниях, таких как Kuaishou, Alibaba Cloud, Baidu Cloud и Bilibili, охватывая 99,7% бизнеса по транскодированию прямых трансляций Kuaishou и стабильно обслуживая 700 миллионов пользователей.
04 3D-стекинг: преодоление разрыва от лаборатории до массового производства
Несмотря на широкие перспективы 3D-стекинга, сложность его инженерной реализации значительно превышает традиционную упаковку.
Во-первых, это управление теплом и отвод тепла. В традиционной 2D-плоскостной архитектуре тепло, выделяемое кристаллом, может напрямую передаваться к верхней термораспределительной пластине и радиатору. Однако в 3D-архитектуре тепло должно преодолевать множество препятствий, вертикально проникая через несколько слоев кремния, массивы TSV, полимерный underfill и интерфейсы микровыступов. Для 2.5D-интегрированных структур традиционные системы воздушного охлаждения все еще могут работать при общей мощности около 300 Вт; но когда система переходит к настоящему 3D-вертикальному стекингу, как только общая мощность упаковки превышает 350 Вт, воздушное охлаждение становится полностью неэффективным, и необходимо принудительно вводить системы жидкостного охлаждения и высокопроизводительные термоинтерфейсные материалы.
Во-вторых, это процесс гибридного соединения и выход годных. Бесвыступное гибридное медное соединение (HCB) требует шага межсоединений <10 мкм или даже 1 мкм, что предъявляет чрезвычайно высокие требования к плоскостности поверхности (CMP), точности соединения и согласованию теплового расширения. Разница в материалах кремниевого моста и подложки может привести к несоответствию теплового расширения, вызывая механические напряжения и трещины; процесс 3D-стекинга сложен, и повышение выхода годных зависит от постоянного улучшения точности соединения.
В-третьих, это инструменты EDA и совместное проектирование. Объем данных для 3D-проектирования взрывообразно растет, требуя глубокой координации между IC-дизайнерами и инженерами по упаковке; существующие инструменты EDA с трудом справляются с многомерной оптимизацией тепловых, сигнальных и питательных характеристик, что требует разработки платформ совместного проектирования тепло-электро-механических систем. В настоящее время три ведущие международные компании EDA имеют некоторую инструментальную поддержку для проектирования 3D-стекированных чипов, однако в китайских отечественных компаниях EDA, специализирующихся на разработке полного цикла инструментов для проектирования 3D-стекированных чипов, их все еще мало. Некоторые компании могут предоставлять отдельные точечные инструменты для этапа симуляции 3D-стекированных чипов, но в таких инструментах, как трассировка и компоновка, многокристальная верификация, Multi-Die DFT тестирование, в Китае все еще существует значительный пробел.
В-четвертых, это тестирование и надежность. Сложность и высокая плотность технологии 3D-стекированной упаковки чипов делают тестирование и надежность серьезной проблемой. Необходимо разрабатывать новые методы и оборудование для тестирования, чтобы обеспечить качество и надежность упаковки. Кроме того, требуется проводить долгосрочную оценку надежности упаковки, чтобы гарантировать ее стабильную работу в различных условиях.
Наконец, это сложность сборки и цепочка поставок. Физическая сборка включает точное совмещение кристаллов с различной толщиной и коэффициентами теплового расширения, что требует интенсивных термомеханических аттестационных работ; объем данных для анализа проектирования значительно превышает стандартную упаковку. Это также приводит к относительно высокой стоимости производства технологии 3D-стекированной упаковки чипов, что требует постоянной оптимизации производственных процессов и снижения себестоимости, чтобы технология 3D-стекированной упаковки чипов могла быть более широко применена в реальных продуктах.
В постмуровскую эпоху, когда предельная выгода от миниатюризации транзисторов снижается, передовая упаковка становится ключом к «преодолению Мура». Для китайских чипов ИИ, в условиях ограничений на импорт передовых техпроцессов и высококлассной HBM, простое следование по пути 2.5D+HBM международных гигантов уже не может создать дифференцированное конкурентное преимущество. От архитектуры Zixuan от Unisplendour до 3.5D-гетерогенной укладки от TsingMicro, китайские производители доказывают: когда планарное расширение достигает физического предела, рост вверх, переопределение способа интеграции чипов в трех измерениях, возможно, и есть ключ к прорыву «стены памяти» и «стены площади», а также к совершению обгона на повороте в глобальной гонке ИИ-вычислений.









