Репортаж от Wedoany,Китайский стартап Catnip недавно выпустил потоковую аудиовизуальную модель MaineCoon, которая обеспечивает синхронную генерацию аудио и видео в реальном времени продолжительностью до 30 минут и более, достигая скорости вывода 47,5 FPS на одном GPU H100 при стоимости менее 0,001 доллара США в секунду.
MaineCoon разработана стартапом Catnip, состоящим всего из 10 человек, штаб-квартира которого находится в Китае. Проект был официально запущен в марте этого года, и три ключевых исследователя за два месяца выполнили полную поставку стека, включая обучение модели, архитектурное проектирование, инфраструктуру данных и систему вывода.
В отличие от традиционных моделей генерации аудио и видео, MaineCoon впервые фокусируется на социальном взаимодействии. Модель поддерживает воспроизведение во время генерации с синхронным выводом аудио и видео, причем первый кадр появляется в течение 1 секунды после подачи команды. При полной загрузке GPU стоимость вывода в секунду снижается до 0,00025 доллара США, что в 2000 раз меньше, чем у Veo 3, и в 560 раз меньше, чем у Seedance. Модель имеет 22 миллиарда параметров, стабильно работает на одном H100 и сохраняет скорость работы в реальном времени выше 30 FPS даже на более дешевой карте вывода RTX Pro 6000.

Команда Catnip подробно описала архитектуру обучения и вывода MaineCoon в техническом отчете. Фреймворк обучения состоит из трех этапов: Self-Resampling для устранения разрыва между обучением и выводом; Representation Alignment, использующий замороженный предварительно обученный визуальный кодировщик V-JEPA 2 для ускорения сходимости совместного обучения аудио и видео; и Domain-Aware Preference Optimization (DPO) в сочетании с Reinforced Online Policy Distillation (ROPD) для обучения специализированных экспертных моделей предпочтений для различных социальных сценариев. Вся модель была обучена на 64 GPU H100 с использованием менее 1 миллиона точек данных за 10 000 GPU-часов.
На стороне вывода используется агентный фреймворк, состоящий из трех независимых интеллектуальных контроллеров: Director отвечает за повествование и исправление ошибок, генерируя структурированные подсказки по тактам через планировщик и контролируя качество генерации через наблюдатель; Cache Manager управляет стратегиями сохранения и удаления KV-кэша, используя кадры внешности персонажей и установки сцен в качестве долгосрочных якорных точек памяти; Buffer Controller управляет буфером предварительного просмотра, балансируя между работой в реальном времени и интерактивным откликом.
Команда Catnip также создала первый специализированный бенчмарк для коротких социальных видео — SocialVideo Bench, охватывающий семь сценариев: интенсивные выступления, взаимодействие двух человек, музыкальное исполнение, эмоциональная игра, танцы, творческие вызовы и социальные мемы. Оценки показывают, что MaineCoon набрала 0,934 балла, превзойдя семь основных моделей генерации аудио и видео, включая SoulX-FlashTalk (0,895).

Команда Catnip впервые предложила концепцию «социальной модели мира», которая, по их мнению, включает три уровня: уровень восприятия (понимание эмоций пользователя), уровень моделирования (прогнозирование социального поведения) и уровень рендеринга (генерация аудио и видео в реальном времени). MaineCoon рассматривается как прорыв на уровне рендеринга. Команда планирует в будущем отказаться от полудуплексного режима взаимодействия, характерного для традиционных AI-диалогов, и реализовать непрерывное, перемежающееся, мультимодальное двустороннее взаимодействие, подобное человеческому, а также внедрить модель в качестве интерактивной контентной платформы.
Основатель команды, Ян Шуйжуй, ранее работала в TikTok и PixVerse, отвечая за внедрение продуктов с популярными шаблонными эффектами, и имеет опыт последовательного предпринимательства. Главный научный сотрудник, Се Цзэке, является доцентом Гонконгского университета науки и технологий (Гуанчжоу), имеет степень бакалавра Китайского университета науки и технологий и докторскую степень Токийского университета, участвовал в передовых исследованиях больших моделей в Исследовательском институте Baidu и долгое время был председателем секций ведущих AI-конференций, таких как NeurIPS, ICLR и ICML. Остальные члены команды — в основном недавние выпускники.

Ранее команда Catnip опубликовала технический отчет в социальной сети X, который сразу привлек внимание, и официальные представители LTX также активно искали сотрудничества. Команда сообщила, что в начале года получила посевное финансирование от инвестиционных организаций, включая Sequoia Capital и Mingshi Capital.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









