Цена входного кэша DeepSeek API снижена до десятой части от первоначальной, V4-Pro временно доступен по цене 0,025 юаня за миллион токенов_Глобальные новости

Цена входного кэша DeepSeek API снижена до десятой части от первоначальной, V4-Pro временно доступен по цене 0,025 юаня за миллион токенов

2026-04-27 10:40

Ключевые слова:

В избр.

Репортаж от Wedoany，26 апреля DeepSeek опубликовала объявление об изменении цен на API: цена попадания во входной кэш для всего семейства API снижена до десятой части от первоначальной. С учётом временной скидки 75% на V4-Pro, стоимость попадания во входной кэш за миллион токенов составляет всего 0,025 юаня, что является новым ценовым рекордом для крупных языковых моделей мира.

Согласно информации на официальной странице с ценами DeepSeek API, данное снижение стоимости охватывает все модели серии V4, основные изменения касаются сценариев попадания во входной кэш. Цена попадания во входной кэш для DeepSeek-V4-Flash снижена с 0,2 юаня за миллион токенов до 0,02 юаня. Для ориентированной на корпоративных пользователей DeepSeek-V4-Pro скидка ещё более существенная: исходная цена кэшированного ввода в 1 юань за миллион токенов снижена до 0,1 юаня, а с учётом временной 75% скидки, действующей до 5 мая 2026 года, фактическая стоимость составляет всего 0,025 юаня за миллион токенов. Стоимость ввода при отсутствии попадания в кэш снижена с 12 до 3 юаней, а вывода — с 24 до 6 юаней.

Основой столь значительного снижения стоимости стали технологические усовершенствования DeepSeek-V4. Предварительная версия DeepSeek-V4 была официально выпущена с открытым исходным кодом 24 апреля и включает две модели: V4-Pro и V4-Flash, обе поддерживают сверхдлинный контекст до 100 миллионов токенов. Собственная Sparsity Attention (разряженное внимание) архитектура позволяет значительно снизить затраты вычислительной мощности на инференс: для модели Pro вычислительная мощность на один токен составляет лишь 27% от версии V3.2, а KV-кэш снижен до 10%, что обеспечивает оптимизацию затрат на базовом уровне. Согласно официальным параметрам, DeepSeek-V4-Pro имеет 49B активных параметров, предобучен на 33T данных и позиционируется как высокопроизводительный флагман; DeepSeek-V4-Flash имеет 13B активных параметров, предобучен на 32T данных и ориентирован на высокую скорость и низкую стоимость.

В оценке способностей агентов DeepSeek-V4-Pro достиг наилучшего среди текущих открытых моделей уровня и показал отличные результаты в других связанных с агентами тестах. Внутри компании DeepSeek V4 используется как агентная модель для кодинга (Agentic Coding) для сотрудников; по оценкам, удобство использования превосходит Sonnet 4.5, а качество результатов близко к режиму без размышлений Claude Opus 4.6. В оценке мировых знаний V4-Pro значительно опережает другие открытые модели, немного уступая ведущей проприетарной модели Gemini 3.1 Pro. В оценках математики, STEM и соревновательного кодирования V4-Pro превосходит все открытые модели с опубликованными результатами и находится на одном уровне с лучшими проприетарными моделями мира. V4-Flash несколько уступает версии Pro по объёму мировых знаний, но демонстрирует сопоставимые возможности рассуждения; благодаря меньшему числу параметров и более лёгкой активации модель обеспечивает более быстрый и экономичный API-сервис.

Что касается экосистемы вычислительных мощностей, глубокое сотрудничество DeepSeek-V4 с Huawei Ascend является ещё одним ключевым фактором снижения стоимости. Полная линейка продуктов Ascend Supernode поддерживает модели серии DeepSeek-V4. В техническом отчёте DeepSeek сообщается, что схемы тонкозернистого экспертного параллелизма были проверены как на платформе NVIDIA GPU, так и на платформе Huawei Ascend NPU. По сравнению с усиленным нефьюжн-базовым уровнем, данная схема обеспечивает ускорение в 1,50–1,73 раза в общих задачах инференса и до 1,96 раза в сценариях, чувствительных к задержке. DeepSeek подчёркивает, что с началом серийных поставок полной линейки продуктов Ascend Supernode во второй половине 2026 года, стоимость версии Pro может быть дополнительно снижена. Снижение затрат для сценариев с высокой частотой вызовов и обработкой длинных текстов превышает 90%; приложения с высокой частотой попадания в кэш, такие как RAG-базы знаний, интеллектуальные службы поддержки и анализ документов, могут непосредственно обеспечить значительное снижение коммерческой стоимости.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com