NVIDIA ускоряет DiffusionGemma в 4 раза
2026-06-11 10:25
В избр.

Репортаж от Wedoany,Google DeepMind выпустила экспериментальную открытую модель DiffusionGemma, предназначенную для сверхбыстрой генерации текста. NVIDIA оптимизировала эту модель для более быстрой работы на графических процессорах NVIDIA GeForce RTX, платформе NVIDIA RTX PRO и системе NVIDIA DGX Spark, охватывая широкий спектр сред — от локальных ПК до облачных решений.

В отличие от традиционного поочередного генерирования слов, DiffusionGemma способна параллельно создавать несколько слов, выводя целые текстовые блоки. Модель построена на основе Gemma 4 — гибридной экспертной модели с 26 миллиардами параметров, активирующей лишь 3,8 миллиарда параметров на каждом шаге, и сочетает диффузионную головку с архитектурой Google Gemma 4. По производительности DiffusionGemma на локальном оборудовании обеспечивает до 4-кратного ускорения генерации текста по сравнению с эквивалентными авторегрессионными моделями. Как открытая модель, DiffusionGemma распространяется под либеральной лицензией Apache 2.0 с открытыми весами и полностью работает локально на RTX и DGX Spark без необходимости облачных зависимостей, получая немедленную поддержку в Hugging Face Transformers, vLLM и Unsloth. Кроме того, пользователи могут бесплатно протестировать DiffusionGemma через API, размещенный NVIDIA на build.nvidia.com.

Большинство широко используемых в настоящее время больших языковых моделей (LLM) применяют авторегрессионный метод генерации, при котором каждый токен создается последовательно, а каждое новое слово зависит от предыдущего. DiffusionGemma, основанная на гибридной экспертной архитектуре Gemma 4 26B, генерирует текст подобно тому, как диффузионные модели создают изображения: начиная с шума, она за один раз уточняет целый текстовый блок. На каждом шаге модель параллельно устраняет шум до 256 токенов. Для чувствительных к задержкам однопользовательских задач, таких как интерактивные чаты, циклы агентов или ассистенты на устройствах, такая параллельность позволяет скорости отклика соответствовать требованиям разработки и итераций.

Традиционные LLM при генерации одного токена за раз часто ограничены пропускной способностью памяти, и значительная часть вычислительной мощности остается неиспользованной. DiffusionGemma, напротив, обрабатывает полные блоки токенов параллельно через Transformer, и ее вычислительно интенсивная рабочая нагрузка идеально подходит для преимуществ графических процессоров NVIDIA. Данные показывают, что DiffusionGemma достигает 1000 токенов/сек на одном NVIDIA H100 Tensor Core GPU, 150 токенов/сек на NVIDIA DGX Spark и обеспечивает самую быструю локальную инференцию на NVIDIA DGX Station, работая примерно в 4 раза быстрее эквивалентной авторегрессионной модели в тех же однопользовательских сценариях.

Это преимущество в производительности распространяется на всю линейку продуктов NVIDIA, включая локальный настольный персональный AI-суперкомпьютер DGX Spark на базе NVIDIA GB10 Grace Blackwell Superchip с 128 ГБ унифицированной памяти; рабочую станцию RTX PRO 6000, предоставляющую разработчикам достаточно локального пространства; DGX Station с быстрой скоростью инференции до 800 токенов/сек и 748 ГБ когерентной памяти; а также графические процессоры GeForce RTX, которые вскоре получат поддержку llama.cpp.

Использование Hugging Face Transformers — самый быстрый способ запустить DiffusionGemma на GeForce RTX 5090 или DGX Spark. Для инференции с более высокой пропускной способностью vLLM предлагает немедленную поддержку. Пользователи могут донастроить модель для конкретных задач или областей с помощью Unsloth и фреймворка NVIDIA NeMo. Более подробные технические сведения можно найти в техническом блоге NVIDIA и официальном объявлении Google DeepMind.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
2026-06-12
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
2026-06-12
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
2026-06-12
Компания Hollysys представляет AI для интеллектуального предупреждения о режимах работы технологических процессов на основе XWorld
2026-06-12
Agile Robots демонстрирует силовое управление и воплощённый ИИ на выставке Robot Technology Japan 2026
2026-06-12
Китайский Alibaba Cloud выпустил Meoo CLI для однокликового развёртывания AI-проектов
2026-06-12
Китайская компания JD.com представила первый в Китае протокол автономных платежей для интеллектуальных агентов с уровнями от L0 до L5
2026-06-12
Международный художественный центр Лунган в Шэньчжэне совместно с Huawei создал первое в мире арт-пространство на базе HarmonyOS и ИИ
2026-06-12
Чемпионат мира по футболу 2026 года в США, Канаде и Мексике: робот Atlas от Boston Dynamics выполнит первый удар
2026-06-12
Умная аптека Galaxy General установила рекорд непрерывной автономной работы человекоподобного робота
2026-06-12
Последние новости
1
Немецкая Mubea Aviation получила контракт от Airbus Atlantic на поставку композитных компонентов для A350
2
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
3
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
4
Singapore Airlines возобновляет рейсы в Мадрид с октября 2026 года
5
Balaena приобретает британские верфи группы APCL
6
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
7
Японская компания Mazak представила оборудование FF-1250H L для обработки крупных деталей, изготовленных методом литья под давлением
8
Китайская компания Donghua Machinery представляет несколько серий термопластавтоматов для удовлетворения потребностей бытовой техники
9
Производственные мощности второго поколения аккумуляторов Blade от китайской BYD ограничены из-за узких мест в лазерной технологии
10
Немецкая компания Dürr представляет новое поколение системы ротационного погружения RoDip E^zy