Программный стек вывода NVIDIA снизил стоимость одного токена DeepSeek V4 до одной пятой
2026-07-01 15:04
В избр.

Репортаж от Wedoany,Программный стек вывода NVIDIA на платформе Blackwell позволил за один месяц снизить стоимость одного токена модели DeepSeek V4 максимум до одной пятой от первоначальной. По мере того как компании переходят от пилотных проектов ИИ к производственным ИИ-фабрикам, решения об инфраструктуре сместились с фокуса на пиковые характеристики чипов к стоимости одного токена, то есть к тому, сколько полезных токенов производится на каждый доллар и каждый ватт электроэнергии при соблюдении целевых показателей задержки. Программный стек вывода NVIDIA, спроектированный совместно с GPU, CPU, сетевыми и системными решениями NVIDIA и усиленный обширной экосистемой с открытым исходным кодом, постоянно повышает производительность оборудования.

Ведущие компании и поставщики услуг вывода уже начали ощущать совокупную ценность программного стека вывода NVIDIA на Blackwell. Baseten использует библиотеку с открытым исходным кодом NVIDIA TensorRT-LLM для предоставления услуг DeepSeek V4 Pro на GPU Blackwell, подходящих для задач вывода, кодирования и длинных контекстов, достигая увеличения количества выводимых токенов в секунду до 50% за счет оптимизации собственной среды выполнения. Cognition использует фреймворк вывода NVIDIA Dynamo для управления GPU вывода, предоставляя своей команде готовый путь для масштабирования рабочих нагрузок с обучением с подкреплением без необходимости создавать инфраструктуру с нуля. Deep Infra использует программный стек вывода NVIDIA для высокопроизводительного запуска передовых моделей с открытым исходным кодом, включая DeepSeek V4, на Blackwell с первого дня. Together AI использует NVIDIA TensorRT-LLM на Blackwell, помогая Cursor ускорить путь от оптимизации модели до производственной конечной точки для поддержки их опыта кодирования в реальном времени.

Традиционные рабочие нагрузки веб-сервисов, поиска и программного обеспечения как услуги относительно предсказуемы, в отличие от агентного ИИ. Агенты могут рассуждать, планировать, вызывать инструменты, запускать специализированные под-агенты и управлять большими объемами контекста в многошаговых рабочих процессах, превращая отдельный запрос в распределенную вычислительную задачу, которая может включать сотни под-агентов, тысячи задач и несколько больших языковых моделей, работающих на GPU, CPU, DPU и системах хранения. Программный стек определяет, превратится ли эта сложность в растраченные вычислительные мощности или в более низкую стоимость одного токена.

Более низкая стоимость одного токена достигается путем преобразования отдельных оптимизаций в системную производительность. Программный стек вывода NVIDIA делает это, соединяя три уровня: уровень производственной эксплуатации координирует распределенные сервисы, оркестрацию, автоматическое масштабирование и управление памятью; уровень ускорения приложений обеспечивает высокопроизводительный запуск моделей и предоставляет разработчикам пространство для настройки и кастомизации; уровень доступа к инфраструктуре раскрывает возможности GPU, сетей, памяти и систем NVIDIA. Когда эти уровни работают вместе как единая система, эффекты от отдельных оптимизаций суммируются. Разделение сервисов, крупномасштабный параллелизм экспертов на основе технологии взаимосвязи NVIDIA NVLink, точность NVFP4 и многотокенное прогнозирование — каждое из этих решений дает значительный выигрыш, а их комбинация может увеличить пропускную способность до 20 раз.

Та же самая основа полного стека также усиливается за счет экосистемы с открытым исходным кодом. Многие широко используемые сегодня фреймворки ИИ с открытым исходным кодом и проекты вывода изначально построены на базе NVIDIA CUDA. PyTorch — яркий пример: запущенный в 2016 году, он изначально поддерживает CUDA и развивается совместно с архитектурой NVIDIA. Когда такие прорывные технологии, как спекулятивное декодирование DFlash или FastVideo, реализуются в PyTorch, они могут немедленно работать на NVIDIA. Когда выходят передовые открытые модели, такие как DeepSeek V4, ведущие фреймворки вывода, такие как vLLM и SGLang, могут предоставить решения для развертывания на архитектуре NVIDIA Blackwell уже в первый день. Именно поэтому производительность DeepSeek V4 на Blackwell за один месяц увеличилась до 5 раз через фреймворки vLLM и SGLang, а стоимость одного токена снизилась примерно до одной пятой.

Вот как работает маховик открытого исходного кода: все больше разработчиков оптимизируют пути вывода на основе CUDA, все больше производственных развертываний возвращаются в экосистему, и каждое улучшение программного обеспечения увеличивает количество выводимых токенов, одновременно снижая стоимость одного токена.

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта:news@wedoany.com
Связанные продукты
Связанные рекомендации
Американские Copernic Space и Intrana объединяют усилия для квантово-безопасных космических активов
2026-07-01
Финляндия и еще пять стран планируют построить подводный оптоволоконный кабель протяженностью 1500 км
2026-07-01
D-Wave получает грант в размере 1,566 млн долларов от NSF США на разработку отказоустойчивых квантовых вычислений
2026-07-01
Crédit Agricole CIB и Pasqal углубляют сотрудничество для ускорения внедрения квантовых исследований
2026-07-01
Американская компания Cyberfox приобретает поставщика SASE Timus Networks
2026-07-01
Американская Comcast разделит медиабизнес, сосредоточившись на широкополосной связи и беспроводных технологиях
2026-07-01
В индийском штате Тамилнад объявлен тендер на закупку 250 тысяч оптических сетевых терминалов
2026-07-01
Американская компания AiRANACULUS получила контракт NASA на $5 млн для лунной связи
2026-07-01
Глобальное развертывание устройств Интернета вещей на базе LoRaWAN достигло 125 миллионов единиц
2026-07-01
Британская Vodafone развернула 5G-роботизированную руку на Уимблдоне для демонстрации сетевого слайсинга
2026-07-01
Последние новости
1
Американская компания Goldman Edwards получила заказ на 18 миллионов долларов от Федерального управления гражданской авиации США
2
Американские Copernic Space и Intrana объединяют усилия для квантово-безопасных космических активов
3
Финляндия и еще пять стран планируют построить подводный оптоволоконный кабель протяженностью 1500 км
4
D-Wave получает грант в размере 1,566 млн долларов от NSF США на разработку отказоустойчивых квантовых вычислений
5
Crédit Agricole CIB и Pasqal углубляют сотрудничество для ускорения внедрения квантовых исследований
6
Американская компания Cyberfox приобретает поставщика SASE Timus Networks
7
Американская Comcast разделит медиабизнес, сосредоточившись на широкополосной связи и беспроводных технологиях
8
В индийском штате Тамилнад объявлен тендер на закупку 250 тысяч оптических сетевых терминалов
9
Американская компания AiRANACULUS получила контракт NASA на $5 млн для лунной связи
10
Глобальное развертывание устройств Интернета вещей на базе LoRaWAN достигло 125 миллионов единиц