Репортаж от Wedoany,Принадлежащая ByteDance платформа Volcano Engine 6 мая 2026 года официально объявила о крупном обновлении семейства моделей Doubao — первой модели с полным модальным пониманием Doubao-Seed-2.0-lite. Ключевым аспектом этого обновления стало расширение способностей восприятия модели от единого понимания текста и изображений до нативного унифицированного понимания видео, изображений, аудио и текста, а также одновременное усиление способностей Agent (агент), Coding (программирование) и GUI (работа с графическим интерфейсом). При сопоставимых вычислительных затратах эта модель становится более оптимальным по соотношению цены и качества выбором для крупномасштабного, серийного развертывания задач полного модального логического вывода на предприятиях.
Президент Volcano Engine Тань Дай ранее отмечал, что индустрия ИИ все еще находится на ранней стадии развития, и ценообразование каждого поколения моделей Volcano Engine тщательно продумано. Хотя возможности моделей нового поколения значительно возросли, с учетом их интеллектуального уровня стоимость логического вывода за один токен фактически продолжает снижаться. Например, обновленная Doubao-Seed-2.0-lite значительно превосходит по производительности предыдущую флагманскую модель 1.8 Pro, но при этом имеет более низкую цену, что направлено на ускорение внедрения ИИ-приложений предприятиями в различных бизнес-сценариях.
Обновление Doubao-Seed-2.0-lite — это не просто косметические улучшения; модель демонстрирует значительный прирост производительности в ряде ключевых бенчмарков. Особого внимания заслуживает тот факт, что в задачах логического вывода по таким высокоуровневым дисциплинам, как физика (HiPhO) и медицина (MedXpertQA), эта модель значительно превзошла версию Doubao-Seed-2.0-pro, выпущенную в феврале этого года, что свидетельствует о качественном скачке в способности модели к пониманию сложной логики и профессиональных областей. Кроме того, в таких передовых областях, как детальное восприятие (BabyVision, WorldVQA) и воплощенное понимание (ERQA), Doubao-Seed-2.0-lite достигла передового отраслевого уровня (SOTA), что еще больше укрепляет ее потенциал для применения в сценариях с высокой ценностью.
Новая способность к пониманию речи — одна из главных особенностей этого обновления. Модель может одновременно обрабатывать визуальную и аудиальную информацию, выполняя кросс-модальный совместный логический вывод и точно определяя, совпадает ли «увиденное» и «услышанное» в видео. В области обработки аудио она не только поддерживает точную транскрипцию речи на 19 языках и взаимный перевод для 14 языков, включая китайский и английский, но и способна глубоко улавливать такие детали, как эмоциональные изменения в речи и фоновые звуки окружающей среды, что приближает ее восприятие к естественному человеческому познанию. Сообщается, что в бенчмарках по распознаванию и переводу речи обновленная модель превосходит даже известную модель Gemini-3.1-Pro.
Помимо скачка в способностях восприятия, Doubao-Seed-2.0-lite одновременно эволюционировала и в способностях к действию. Ее агентные способности были усилены: значительно улучшилось следование сложным многошаговым инструкциям в несколько раундов, а также появились более мощные способности к рефлексии задач, логическому выводу и координации работы нескольких агентов. В области программирования (Coding) возможности модели теперь полностью охватывают разработку фронтенд-страниц, 3D-сцен и даже игр; а совершенно новая способность GUI впервые позволила ИИ замкнуть цикл от «понимания интерфейса» до «практических действий», autonomously распознавая и управляя такими элементами приложений, как кнопки и меню.
В настоящее время новая версия Doubao-Seed-2.0-lite уже доступна на платформе Volcano Ark. Одновременно с ней была запущена и новая версия Doubao-Seed-2.0-mini, которая также поддерживает полное модальное понимание и отличается значительно сокращенной длительностью размышлений, что дополнительно повышает эффективность использования токенов. Эти обновления предоставляют предприятиям из самых разных областей — от онлайн-образования и анализа киберспортивных матчей до зарубежной электронной коммерции — более богатый и экономически эффективный выбор ИИ-инфраструктуры.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com










