Репортаж от Wedoany,3 июля на Глобальной конференции по цифровой экономике 2026 года компания ShengShu Technology (生数科技) представила видеомодель нового поколения Vidu S1, которая обеспечивает генерацию интерактивного видео в реальном времени, переводя AI-видео от создания отдельных фрагментов к поддержке непрерывного интерактивного взаимодействия.

Vidu S1 поддерживает видеодиалоги в реальном времени с управлением персонажами через голосовые команды: пользователи могут естественно управлять AI-аватаром с помощью голосового ввода и вести бесконечное непрерывное взаимодействие. Модель обеспечивает разрешение 540P (960x540) с частотой кадров 25 FPS (максимум 42 FPS), позволяя пользователям мгновенно создавать персонализированные интерактивные аватары из одного изображения (реальных людей, аниме-персонажей или даже домашних животных) с настраиваемым голосом. Вся система работает на потребительских GPU, что значительно снижает аппаратные требования для генерации интерактивного видео в реальном времени.
Большинство существующих моделей генерации видео используют офлайн-рабочий процесс: пользователь отправляет запрос и ждет генерации видео, которое после создания остается неизменным. Vidu S1 внедряет фреймворк для интерактивной генерации видео в реальном времени, позволяя пользователям непрерывно вводить голосовые команды во время видеодиалога. Модель обрабатывает голосовой ввод вместе с контекстом диалога и текущим визуальным контекстом, что позволяет генерировать и обновлять последующий видеоконтент в реальном времени. Модель не полагается на аудио-управляемые движения губ или предопределенные библиотеки анимации, а понимает семантику, намерения и эмоциональный контекст голосового ввода, генерируя синхронизированные движения губ, мимику, движения глаз, жесты, позы тела и движения всего тела в реальном времени.
Vidu S1 использует архитектуру авторегрессионной диффузии (AR+Diffusion), которая не генерирует все видео заранее, а непрерывно предсказывает и генерирует последующий видеоконтент на основе уже созданных кадров, текущей голосовой команды и контекста диалога. Когда пользователь дает новую команду, модель в реальном времени обновляет выражение лица, действия и последующее поведение персонажа, позволяя взаимодействию непрерывно развиваться в процессе диалога. Эта модель является ведущей в области генерации видео в реальном времени неограниченной длительности, обеспечивая сохранение идентичности персонажа, поддержание естественных и плавных движений, непрерывную обработку пользовательского ввода и реализацию ответов в реальном времени в ходе длительных диалогов.
Для достижения генерации интерактивного видео в реальном времени с разрешением 540P (960x540) и частотой кадров 25 FPS (с поддержкой до 42 FPS) компания ShengShu Technology применила технологии ускорения вывода на уровне модели, включая TurboDiffusion, низкобитовую SageAttention, разреженный метод внимания SLA и SpargeAttention, снижая вычислительные затраты на кадр за счет малопошаговой генерации, квантования модели и оптимизации ядер вывода. На системном уровне движок сервиса вывода TurboServe эффективно планирует рабочую нагрузку вывода, динамически распределяя вычислительные ресурсы в зависимости от состояния взаимодействия. Эти оптимизации позволяют Vidu S1 выполнять генерацию в реальном времени на потребительских GPU, обеспечивая технологическую основу для таких приложений, как видеодиалоги в реальном времени, интерактивные прямые трансляции, AI-компаньоны, интерактивные игры и XR-опыт.
В области создания персонажей Vidu S1 внедряет полностью генеративный рабочий процесс: пользователю достаточно загрузить одно изображение, и модель захватывает идентичность, внешность и визуальный стиль персонажа, генерируя в реальном времени синхронизированные движения губ, мимику, жесты и движения всего тела без необходимости моделирования и обучения для конкретного персонажа. Независимо от того, основан ли персонаж на реальном человеке, аниме-персонаже или домашнем животном, одно изображение может быть преобразовано в интерактивного персонажа в реальном времени с поддержкой настраиваемого голоса.
Vidu S1 теперь доступна публично: пользователи могут в реальном времени создавать AI-аватары из своих собственных изображений и взаимодействовать с ними. Ее API-платформа доступна разработчикам и корпоративным партнерам для создания интерактивных приложений в реальном времени.










