Репортаж от Wedoany,Intel и AMD недавно опубликовали полную спецификацию расширения ACE CPU, направленного на повышение эффективности и энергоэффективности процессоров x86 при выполнении определённых задач ИИ. Это расширение предлагает более совершенное техническое решение для выполнения таких задач на CPU.

В настоящее время работа большинства моделей ИИ зависит от GPU, однако не все задачи ИИ подходят для этого оборудования. Для небольших моделей или однопользовательских операций, чувствительных к задержкам, выполнение на CPU позволяет избежать накладных расходов на передачу данных между CPU и GPU. Кроме того, во многих сценариях GPU отсутствует или используется только встроенная графика с ограниченной производительностью. Стандарт ACE достигает этой цели, предоставляя технический стандарт, использующий существующие регистры AVX10 и добавляющий специализированные схемы для матричного умножения. Его ключевые преимущества — более высокая энергоэффективность, упрощённый процесс разработки и оптимизации, а также поддержка 512-битных входных данных, что облегчает интеграцию ACE с существующими проектами.
Матричное умножение — это базовая операция для вычислительных нагрузок ИИ, включающая циклы умножения-сложения над таблицами данных. Хотя его можно выполнять на большинстве CPU, скорость ограничена, а энергопотребление высоко. По сравнению с AVX10, ACE может выполнять в 16 раз больше операций при том же количестве входных векторов. Это не означает 16-кратного ускорения, так как результат зависит от реализации, но Intel и AMD, вероятно, выделят больше схем для этой задачи в будущих проектах для повышения производительности. Поскольку каждая инструкция ACE выполняет больший объём работы, чем эквивалентный цикл AVX10, снижаются накладные расходы на инструкции, и может быть немедленно достигнуто лучшее использование пропускной способности памяти.
Преимущества ACE не ограничиваются выполнением той же работы с меньшим количеством инструкций. Стандарт не зависит от реализации, что означает, что фреймворки машинного обучения и их базовые библиотеки (например, PyTorch, TensorFlow) могут написать один путь кода, не создавая множество вариантов в зависимости от уровня поддержки AVX в базовом оборудовании. ACE изначально поддерживает большинство типов данных, используемых в операциях машинного обучения, включая INT8, INT32, FP8, FP16, FP32 и BF16, а также может изначально использовать формат блочного масштабирования MX от Open Compute Project, что недоступно для AVX10. Разработчики также могут перенести некоторые специфические для NPU нагрузки обратно на CPU, при этом ACE предоставляет единую цель для всего оборудования x86, избегая сложностей, связанных с различиями в оборудовании.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









