NVIDIA ускоряет DiffusionGemma в 4 раза_Глобальные новости

NVIDIA ускоряет DiffusionGemma в 4 раза

2026-06-11 10:25

В избр.

Репортаж от Wedoany，Google DeepMind выпустила экспериментальную открытую модель DiffusionGemma, предназначенную для сверхбыстрой генерации текста. NVIDIA оптимизировала эту модель для более быстрой работы на графических процессорах NVIDIA GeForce RTX, платформе NVIDIA RTX PRO и системе NVIDIA DGX Spark, охватывая широкий спектр сред — от локальных ПК до облачных решений.

В отличие от традиционного поочередного генерирования слов, DiffusionGemma способна параллельно создавать несколько слов, выводя целые текстовые блоки. Модель построена на основе Gemma 4 — гибридной экспертной модели с 26 миллиардами параметров, активирующей лишь 3,8 миллиарда параметров на каждом шаге, и сочетает диффузионную головку с архитектурой Google Gemma 4. По производительности DiffusionGemma на локальном оборудовании обеспечивает до 4-кратного ускорения генерации текста по сравнению с эквивалентными авторегрессионными моделями. Как открытая модель, DiffusionGemma распространяется под либеральной лицензией Apache 2.0 с открытыми весами и полностью работает локально на RTX и DGX Spark без необходимости облачных зависимостей, получая немедленную поддержку в Hugging Face Transformers, vLLM и Unsloth. Кроме того, пользователи могут бесплатно протестировать DiffusionGemma через API, размещенный NVIDIA на build.nvidia.com.

Большинство широко используемых в настоящее время больших языковых моделей (LLM) применяют авторегрессионный метод генерации, при котором каждый токен создается последовательно, а каждое новое слово зависит от предыдущего. DiffusionGemma, основанная на гибридной экспертной архитектуре Gemma 4 26B, генерирует текст подобно тому, как диффузионные модели создают изображения: начиная с шума, она за один раз уточняет целый текстовый блок. На каждом шаге модель параллельно устраняет шум до 256 токенов. Для чувствительных к задержкам однопользовательских задач, таких как интерактивные чаты, циклы агентов или ассистенты на устройствах, такая параллельность позволяет скорости отклика соответствовать требованиям разработки и итераций.

Традиционные LLM при генерации одного токена за раз часто ограничены пропускной способностью памяти, и значительная часть вычислительной мощности остается неиспользованной. DiffusionGemma, напротив, обрабатывает полные блоки токенов параллельно через Transformer, и ее вычислительно интенсивная рабочая нагрузка идеально подходит для преимуществ графических процессоров NVIDIA. Данные показывают, что DiffusionGemma достигает 1000 токенов/сек на одном NVIDIA H100 Tensor Core GPU, 150 токенов/сек на NVIDIA DGX Spark и обеспечивает самую быструю локальную инференцию на NVIDIA DGX Station, работая примерно в 4 раза быстрее эквивалентной авторегрессионной модели в тех же однопользовательских сценариях.

Это преимущество в производительности распространяется на всю линейку продуктов NVIDIA, включая локальный настольный персональный AI-суперкомпьютер DGX Spark на базе NVIDIA GB10 Grace Blackwell Superchip с 128 ГБ унифицированной памяти; рабочую станцию RTX PRO 6000, предоставляющую разработчикам достаточно локального пространства; DGX Station с быстрой скоростью инференции до 800 токенов/сек и 748 ГБ когерентной памяти; а также графические процессоры GeForce RTX, которые вскоре получат поддержку llama.cpp.

Использование Hugging Face Transformers — самый быстрый способ запустить DiffusionGemma на GeForce RTX 5090 или DGX Spark. Для инференции с более высокой пропускной способностью vLLM предлагает немедленную поддержку. Пользователи могут донастроить модель для конкретных задач или областей с помощью Unsloth и фреймворка NVIDIA NeMo. Более подробные технические сведения можно найти в техническом блоге NVIDIA и официальном объявлении Google DeepMind.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Великобритания

США

Информация и коммуникация Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Цены на нефть взлетели выше 90 долларов, золото упало ниже 4100 долларов!

Следующий：Европейская выставка VivaTech 2026 сосредоточена на масштабном внедрении ИИ на предприятиях