Китайская компания JD.com открыла исходный код фреймворка JoyAI-Echo для генерации длинных аудио- и видеоматериалов
2026-06-04 09:29
В избр.

Репортаж от Wedoany,3 июня компания JD.com представила фреймворк JoyAI-Echo для генерации длинных аудио- и видеоматериалов, код и веса которого полностью открыты. Этот фреймворк ориентирован на сценарии создания длинных аудио- и видеороликов. Он включает интеллектуального «помощника режиссёра» Director Agent и оснащён кроссмодальной аудиовизуальной памятью, которая позволяет непрерывно сохранять и вызывать внешние характеристики персонажей и тембр голоса говорящего в процессе генерации нескольких кадров.

JoyAI-Echo решает давнюю проблему стабильности при создании длинных видеороликов. Современные модели генерации видео уже демонстрируют высокую производительность в коротких фрагментах, однокадровых сценах и сценариях с одним персонажем. Однако при переходе к многосценарному повествованию, последовательному появлению персонажей, диалогам и генерации длительного контента модели часто сталкиваются с такими проблемами, как дрейф внешности персонажа, несоответствие тембра голоса, логическая разрозненность кадров и низкая скорость генерации. JoyAI-Echo использует кроссмодальную аудиовизуальную память для записи идентичности персонажа, визуального образа и звукового контекста, что позволяет последующим кадрам продолжать использовать предыдущую информацию. Director Agent берёт на себя функции разбора сценария, персонажей и кадров, позволяя пользователям выдвигать творческие запросы и вносить изменения с помощью естественного языка, тем самым снижая затраты на многократный перезапуск всего контента в процессе создания длинных видео.

Согласно репозиторию JD.com с открытым исходным кодом, JoyAI-Echo поддерживает генерацию многосценарных аудио- и видеоматериалов длительностью в минуты, позволяет создавать связные истории с помощью одного JSON-подсказки и использует метод дистилляции DMD для ускорения генерации за счёт сокращения количества шагов вывода.

Значение этого фреймворка заключается в том, что он переводит генерацию длинных аудио- и видеоматериалов из разряда «однократного результата» в «творческий процесс с возможностью непрерывного редактирования». В таких сценариях, как предварительная визуализация фильмов, создание брендовых видеороликов, контент с цифровыми аватарами, создание виртуальных историй и короткие сериалы для прямых трансляций, создателям требуется не просто сгенерировать один кадр, а обеспечить единый образ, единый голос и единый стиль повествования персонажа на протяжении нескольких сюжетных линий. JoyAI-Echo объединяет аудио, видео, память персонажей, планирование кадров и диалоговое редактирование в едином фреймворке, что способствует снижению технического порога для создания длинного контента. После полного открытия исходного кода и весов разработчики смогут проводить вторичную разработку, оценку моделей и адаптацию под вертикальные сценарии на основе этого фреймворка, что будет способствовать дальнейшему расширению экосистемы генерации длинных аудио- и видеоматериалов в Китае.

Дальнейшие переменные будут сосредоточены на адаптации в сообществе с открытым исходным кодом, фактической стоимости развёртывания, согласованности длинных видео, интерактивном опыте редактирования и скорости внедрения в коммерческие сценарии. По мере перехода генерации AI-видео от коротких демонстраций к более сложным этапам производства контента, память персонажей, согласованность голоса, непрерывность кадров и возможность редактирования станут важными показателями конкуренции фреймворков. Открытие исходного кода JoyAI-Echo предоставит воспроизводимый и расширяемый технологический вход в область генерации длинных аудио- и видеоматериалов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Китайские производственные предприятия перестраивают промышленность с помощью автономных роботов и физического ИИ
2026-06-04
Британская компания Corscale построит в Лондоне центр обработки данных мощностью 140 МВт, завершение ожидается в 2029 году
2026-06-04
Японская компания Omron представляет в Китае серию GD — модули ведущего устройства IO-Link для упрощения подключения датчиков разных производителей
2026-06-04
Китайская компания Anyouce представит продукцию с прецизионными датчиками и технологиями ИИ-контроля на Южно-Китайской промышленной выставке 2026
2026-06-04
Чжоу Гуан из DeepRoute.ai: Вспомогательному вождению необходим переход к большим моделям, эффективность обработки данных возрастёт в 10 раз
2026-06-04
В Пекине открылся семинар OptiNet China 2026
2026-06-04
Американская компания Nous Research выпускает публичную бета-версию Hermes Desktop
2026-06-04
China Mobile Zhejiang развернула квантовую выделенную линию в Вэньчжоу для защиты данных о продовольственной безопасности
2026-06-04
Точность предупреждения о пожаре с помощью ИИ «Огненный страж» China Mobile Ningbo достигает 98,5%
2026-06-04
Hitachi Vantara, дочерняя компания японской Hitachi, обновляет соглашения об уровне обслуживания EverFlex
2026-06-04
Последние новости
1
В июне 2026 года российская группа «Ареал» и Республика Тыва подписали соглашение о сотрудничестве
2
Монголия в 2027 году начнет строительство аффинажного завода мощностью 50 тонн золота в год
3
Senace Перу одобрило техническую оптимизацию Minera Shouxin
4
Около 400 000 тонн песка и гравия в Цзяньли, Хубэй, стартовая цена 8,8 юаня с 11 июня
5
Китайские производственные предприятия перестраивают промышленность с помощью автономных роботов и физического ИИ
6
Британская компания Corscale построит в Лондоне центр обработки данных мощностью 140 МВт, завершение ожидается в 2029 году
7
China Coal Information выпускает крупномасштабную модель безопасности и экстренного реагирования для угольных шахт
8
Японская компания Omron представляет в Китае серию GD — модули ведущего устройства IO-Link для упрощения подключения датчиков разных производителей
9
Бразильская Cemig приобретает 11 солнечных электростанций за 155 млн реалов
10
Китайская компания Anyouce представит продукцию с прецизионными датчиками и технологиями ИИ-контроля на Южно-Китайской промышленной выставке 2026