Китайская DeepSeek совместно с Пекинским университетом представила фреймворк логического вывода DSpark
2026-06-29 08:39
В избр.

Репортаж от Wedoany,Китайская AI-компания DeepSeek совместно с Пекинским университетом 27 июня представила фреймворк ускорения логического вывода DSpark, предложив новый метод решения проблемы узких мест эффективности при высоконагруженном обслуживании больших языковых моделей. Фреймворк основан на направлении спекулятивного декодирования и использует полуавторегрессионную структуру генерации и механизм динамической верификации на основе уверенности для повышения качества черновых токенов и сокращения неэффективных вычислительных затрат на верификацию. В онлайн-системе DeepSeek-V4 DSpark повысил скорость логического вывода на 60–85% по сравнению с базовой моделью и снизил потери пропускной способности в сценариях с высокой степенью параллелизма.

Спекулятивное декодирование — одно из ключевых направлений ускорения логического вывода больших моделей. При генерации текста большие модели обычно предсказывают токены последовательно: следующий токен может быть вычислен только после генерации предыдущего. Такой авторегрессионный подход обеспечивает связность контекста, но затрудняет полное распараллеливание процесса вывода. Идея спекулятивного декодирования заключается в том, чтобы сначала с помощью более легковесной черновой модели заранее сгенерировать несколько кандидатных токенов, а затем целевая большая модель их верифицирует. Если кандидатные токены принимаются, можно продвинуться сразу на несколько шагов генерации, тем самым увеличив общую скорость вывода.

Проблема в том, что существующие методы параллельной генерации черновиков, хотя и позволяют создавать более длинные блоки токенов за один раз, страдают от недостаточной взаимосвязи между токенами. Последующие токены с большей вероятностью отклоняются от распределения целевой модели, что приводит к росту доли отказов. Отклоненные черновые токены не только не ускоряют процесс, но и потребляют вычислительные ресурсы на верификацию, особенно в условиях высоконагруженного онлайн-обслуживания, создавая дополнительные вычислительные потери. DSpark решает эту проблему, добавляя в параллельную генерирующую основу легковесный последовательный модуль, который усиливает зависимость между черновыми токенами и увеличивает приемлемую длину кандидатной последовательности.

Полуавторегрессионная структура является ключевой разработкой DSpark. Она не возвращается полностью к последовательной авторегрессии токен за токеном и не ограничивается простой однократной параллельной генерацией всего чернового блока, а представляет собой компромисс между эффективностью параллелизма и зависимостью последовательностей. Параллельная основа отвечает за быструю генерацию кандидатных блоков, а легковесный последовательный модуль дополняет контекстные связи между соседними токенами, приближая траекторию генерации черновой модели к целевой. Благодаря этому целевая модель с большей вероятностью принимает последовательные токены на этапе верификации, и одна верификация позволяет продвинуться на большее расстояние генерации.

Еще одним ключевым механизмом DSpark является динамическая верификация на основе уверенности. Вероятность успеха черновика варьируется в зависимости от запроса, контекста и позиции генерации. Если система использует фиксированную длину верификации, это приводит к нерациональным вычислительным затратам на запросы с низкой вероятностью успеха и не позволяет полностью использовать приемлемые черновики на запросах с высокой вероятностью успеха. DSpark адаптивно регулирует длину верификации в зависимости от вероятности успеха запроса и загрузки системы, избегая ситуаций, когда «заведомо низкая приемлемость все равно приводит к верификации слишком длинного черновика», и позволяя более разумно распределять вычислительные ресурсы при высокой нагрузке.

Этот механизм особенно важен для производственных онлайн-сред. В офлайн-тестовых средах запросы обычно более контролируемы, а нагрузка на параллелизм ниже. Однако в реальных сервисах больших моделей одновременно обрабатывается множество пользовательских запросов, различающихся по длине ввода, типу задачи, стилю вывода и сложности генерации. Фреймворк ускорения вывода, эффективный лишь в мелкосерийных экспериментах, вряд ли сможет поддерживать коммерческое развертывание. DSpark, продемонстрировав повышение скорости вывода на 60–85% в онлайн-системе DeepSeek-V4, подтверждает, что его разработка ориентирована на верификацию в условиях реальной сервисной нагрузки, а не просто на оптимизацию лабораторных показателей.

DSpark также улучшает пропускную способность при высокой степени параллелизма за счет увеличения приемлемой длины генерации. Стоимость обслуживания больших моделей складывается не только из задержки одного запроса, но и из общей пропускной способности кластера GPU под высокой нагрузкой. Чем выше качество черновика, тем больше токенов проходит верификацию за один раз целевой моделью и тем выше эффективный выход на единицу вычислительных ресурсов. Для API-сервисов, агентных систем, генерации кода, поисково-ответных систем и корпоративных AI-приложений снижение затрат на логический вывод означает, что те же вычислительные мощности могут обслуживать больше запросов или обеспечивать более быстрое время отклика при тех же затратах.

DeepSeek также открывает исходный код контрольных точек модели и фреймворка обучения DeepSpec, предоставляя сообществу полный инструментарий для дальнейших исследований алгоритмов спекулятивного декодирования. DeepSpec включает обучение черновых моделей, подготовку данных, скрипты оценки и реализацию различных алгоритмов, поддерживая обучение и сравнение черновых моделей, таких как DSpark, DFlash и Eagle3. Значение открытого фреймворка заключается в том, что внешние разработчики и исследовательские институты могут воспроизводить, донастраивать и оценивать его на различных целевых моделях, наборах данных и сценариях обслуживания, способствуя переходу спекулятивного декодирования от единичных алгоритмов к инженерным инструментам.

Этот результат также отражает, что конкуренция в области больших моделей смещается от масштаба параметров модели к эффективности инженерных решений для логического вывода. Возможности модели определяют верхнюю границу сервиса, а скорость вывода и стоимость единицы ресурса — скорость коммерциализации. С переходом корпоративных приложений, агентов, помощников по программированию и мультимодальных систем в фазу активного использования пользователи требуют от моделей не только «хороших ответов», но и «быстрых ответов, низкой стоимости и стабильной работы при высокой нагрузке». DSpark решает именно фундаментальную проблему эффективности при переходе больших моделей к крупномасштабному онлайн-обслуживанию.

Дальнейшие перспективы сосредоточены на трех аспектах: во-первых, сможет ли DSpark обеспечивать стабильное ускорение на большем количестве архитектур моделей и типов задач; во-вторых, сможет ли механизм динамической верификации продолжать снижать неэффективные вычисления в условиях сверхвысокой степени параллелизма; в-третьих, после открытия исходного кода DeepSpec, сформирует ли сообщество на основе DSpark больше специализированных черновых моделей для задач, связанных с кодом, математикой, длинными текстами и агентными задачами. Поскольку затраты на логический вывод становятся ключевой переменной коммерциализации больших моделей, фреймворки ускорения вывода, подобные DSpark, станут важной частью конкуренции в области AI-инфраструктуры.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Apple A22 Pro может получить техпроцесс 1,4 нм
2026-06-29
Китайская компания CICT Mobile помогает операторам перейти на модель AI Token к 2026 году
2026-06-29
Гонконгская компания Waton Financial запускает AI-инвестиционную платформу MoTA Alpha
2026-06-29
Индийская Persistent приобретает немецкую Nagarro, годовая выручка составит 2,9 млрд долларов
2026-06-29
Американская AI-компания Lindy полностью перешла на DeepSeek, сэкономив миллионы долларов
2026-06-29
Управление оборонной промышленности Турции опубликовало дорожную карту по 85 квантовым технологиям
2026-06-29
UCSD и Google планируют построить центр обработки данных из старых телефонов к концу года
2026-06-29
Американская компания OpenAI запускает ограниченное тестирование трёх моделей GPT-5.6
2026-06-29
Украина сотрудничает с «Киевстар» для строительства объектов ИИ-вычислений, первый этап требует десятков миллионов долларов
2026-06-29
Французская компания Graitec объявила о стратегии в области искусственного интеллекта для AECO
2026-06-29
Последние новости
1
AEMO Австралии планирует довести общую мощность генерации и хранения энергии до 308 ГВт к 2050 году
2
Федеральная счетная палата Бразилии одобрила включение четырех лотов передачи электроэнергии MEZ в июльский аукцион
3
TelkomGroup высадила 2000 фрагментов кораллов во Всемирный день окружающей среды
4
Газопровод «Белогорск — Хабаровск» «Газпрома» планируется ввести в эксплуатацию в 2026 году
5
EDF выделяет 80 миллионов евро на установку систем охлаждения в школах
6
Отчет о прогнозе рыночных перспектив китайской индустрии человекоподобных роботов на 2026 год
7
Британская компания SCJ Renewables завершила проект по установке солнечных панелей на крыше площадью с футбольное поле
8
Израильская компания Eco Wave Power разрабатывает систему волновой энергии с использованием технологий NVIDIA
9
Китайская компания YiXing Intelligence совместно с China Energy Construction и Guofu Data создают RISC-V суперузел AI-фабрики
10
Китайская компания Zhejiang Mining Machinery Co., Ltd. получила патент на модульную линию по производству щебня