Репортаж от Wedoany,3 июня компания JD.com представила фреймворк JoyAI-Echo для генерации длинных аудио- и видеоматериалов, код и веса которого полностью открыты. Этот фреймворк ориентирован на сценарии создания длинных аудио- и видеороликов. Он включает интеллектуального «помощника режиссёра» Director Agent и оснащён кроссмодальной аудиовизуальной памятью, которая позволяет непрерывно сохранять и вызывать внешние характеристики персонажей и тембр голоса говорящего в процессе генерации нескольких кадров.
JoyAI-Echo решает давнюю проблему стабильности при создании длинных видеороликов. Современные модели генерации видео уже демонстрируют высокую производительность в коротких фрагментах, однокадровых сценах и сценариях с одним персонажем. Однако при переходе к многосценарному повествованию, последовательному появлению персонажей, диалогам и генерации длительного контента модели часто сталкиваются с такими проблемами, как дрейф внешности персонажа, несоответствие тембра голоса, логическая разрозненность кадров и низкая скорость генерации. JoyAI-Echo использует кроссмодальную аудиовизуальную память для записи идентичности персонажа, визуального образа и звукового контекста, что позволяет последующим кадрам продолжать использовать предыдущую информацию. Director Agent берёт на себя функции разбора сценария, персонажей и кадров, позволяя пользователям выдвигать творческие запросы и вносить изменения с помощью естественного языка, тем самым снижая затраты на многократный перезапуск всего контента в процессе создания длинных видео.
Согласно репозиторию JD.com с открытым исходным кодом, JoyAI-Echo поддерживает генерацию многосценарных аудио- и видеоматериалов длительностью в минуты, позволяет создавать связные истории с помощью одного JSON-подсказки и использует метод дистилляции DMD для ускорения генерации за счёт сокращения количества шагов вывода.
Значение этого фреймворка заключается в том, что он переводит генерацию длинных аудио- и видеоматериалов из разряда «однократного результата» в «творческий процесс с возможностью непрерывного редактирования». В таких сценариях, как предварительная визуализация фильмов, создание брендовых видеороликов, контент с цифровыми аватарами, создание виртуальных историй и короткие сериалы для прямых трансляций, создателям требуется не просто сгенерировать один кадр, а обеспечить единый образ, единый голос и единый стиль повествования персонажа на протяжении нескольких сюжетных линий. JoyAI-Echo объединяет аудио, видео, память персонажей, планирование кадров и диалоговое редактирование в едином фреймворке, что способствует снижению технического порога для создания длинного контента. После полного открытия исходного кода и весов разработчики смогут проводить вторичную разработку, оценку моделей и адаптацию под вертикальные сценарии на основе этого фреймворка, что будет способствовать дальнейшему расширению экосистемы генерации длинных аудио- и видеоматериалов в Китае.
Дальнейшие переменные будут сосредоточены на адаптации в сообществе с открытым исходным кодом, фактической стоимости развёртывания, согласованности длинных видео, интерактивном опыте редактирования и скорости внедрения в коммерческие сценарии. По мере перехода генерации AI-видео от коротких демонстраций к более сложным этапам производства контента, память персонажей, согласованность голоса, непрерывность кадров и возможность редактирования станут важными показателями конкуренции фреймворков. Открытие исходного кода JoyAI-Echo предоставит воспроизводимый и расширяемый технологический вход в область генерации длинных аудио- и видеоматериалов.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









