6 февраля компания ByteDance представила новую AI-модель под названием OmniHuman-1. Эта модель способна создавать очень реалистичные видео с полным телом человека на основе одной фотографии, в сопровождении аудио или видео. Результаты, полученные с помощью OmniHuman-1, поражают своей натуральностью и детализацией.
Модель поддерживает различные типы ввода, такие как отдельные фотографии людей с аудио или видео, и может создавать видео с реалистичными движениями, включая речь, пение и танцы. OmniHuman-1 превосходит существующие методы, точно воспроизводя выражения лица, движения тела, изменения поз и взаимодействие с объектами.
Модель использует стратегию смешанного обучения на основе мультимодальных условий движения, построенную на архитектуре DiT, что позволяет решать проблему нехватки высококачественных данных. Эта технология сочетает в себе текст, аудио и движения тела, обучая AI на основе более обширных и разнообразных данных.
По результатам сравнения с другими существующими моделями, OmniHuman-1 продемонстрировал значительные преимущества во многих метриках оценки. Развитие этой технологии открывает новые горизонты в области AI, особенно в создании реалистичных видео, и может оказать значительное влияние на производство медиа, развлечения, образования и другие сферы.









