Китайская Catnip представила потоковую аудиовизуальную модель MaineCoon
2026-06-21 09:49
В избр.

Репортаж от Wedoany,Китайский стартап Catnip недавно выпустил потоковую аудиовизуальную модель MaineCoon, которая обеспечивает синхронную генерацию аудио и видео в реальном времени продолжительностью до 30 минут и более, достигая скорости вывода 47,5 FPS на одном GPU H100 при стоимости менее 0,001 доллара США в секунду.

MaineCoon разработана стартапом Catnip, состоящим всего из 10 человек, штаб-квартира которого находится в Китае. Проект был официально запущен в марте этого года, и три ключевых исследователя за два месяца выполнили полную поставку стека, включая обучение модели, архитектурное проектирование, инфраструктуру данных и систему вывода.

В отличие от традиционных моделей генерации аудио и видео, MaineCoon впервые фокусируется на социальном взаимодействии. Модель поддерживает воспроизведение во время генерации с синхронным выводом аудио и видео, причем первый кадр появляется в течение 1 секунды после подачи команды. При полной загрузке GPU стоимость вывода в секунду снижается до 0,00025 доллара США, что в 2000 раз меньше, чем у Veo 3, и в 560 раз меньше, чем у Seedance. Модель имеет 22 миллиарда параметров, стабильно работает на одном H100 и сохраняет скорость работы в реальном времени выше 30 FPS даже на более дешевой карте вывода RTX Pro 6000.

Команда Catnip подробно описала архитектуру обучения и вывода MaineCoon в техническом отчете. Фреймворк обучения состоит из трех этапов: Self-Resampling для устранения разрыва между обучением и выводом; Representation Alignment, использующий замороженный предварительно обученный визуальный кодировщик V-JEPA 2 для ускорения сходимости совместного обучения аудио и видео; и Domain-Aware Preference Optimization (DPO) в сочетании с Reinforced Online Policy Distillation (ROPD) для обучения специализированных экспертных моделей предпочтений для различных социальных сценариев. Вся модель была обучена на 64 GPU H100 с использованием менее 1 миллиона точек данных за 10 000 GPU-часов.

На стороне вывода используется агентный фреймворк, состоящий из трех независимых интеллектуальных контроллеров: Director отвечает за повествование и исправление ошибок, генерируя структурированные подсказки по тактам через планировщик и контролируя качество генерации через наблюдатель; Cache Manager управляет стратегиями сохранения и удаления KV-кэша, используя кадры внешности персонажей и установки сцен в качестве долгосрочных якорных точек памяти; Buffer Controller управляет буфером предварительного просмотра, балансируя между работой в реальном времени и интерактивным откликом.

Команда Catnip также создала первый специализированный бенчмарк для коротких социальных видео — SocialVideo Bench, охватывающий семь сценариев: интенсивные выступления, взаимодействие двух человек, музыкальное исполнение, эмоциональная игра, танцы, творческие вызовы и социальные мемы. Оценки показывают, что MaineCoon набрала 0,934 балла, превзойдя семь основных моделей генерации аудио и видео, включая SoulX-FlashTalk (0,895).

Команда Catnip впервые предложила концепцию «социальной модели мира», которая, по их мнению, включает три уровня: уровень восприятия (понимание эмоций пользователя), уровень моделирования (прогнозирование социального поведения) и уровень рендеринга (генерация аудио и видео в реальном времени). MaineCoon рассматривается как прорыв на уровне рендеринга. Команда планирует в будущем отказаться от полудуплексного режима взаимодействия, характерного для традиционных AI-диалогов, и реализовать непрерывное, перемежающееся, мультимодальное двустороннее взаимодействие, подобное человеческому, а также внедрить модель в качестве интерактивной контентной платформы.

Основатель команды, Ян Шуйжуй, ранее работала в TikTok и PixVerse, отвечая за внедрение продуктов с популярными шаблонными эффектами, и имеет опыт последовательного предпринимательства. Главный научный сотрудник, Се Цзэке, является доцентом Гонконгского университета науки и технологий (Гуанчжоу), имеет степень бакалавра Китайского университета науки и технологий и докторскую степень Токийского университета, участвовал в передовых исследованиях больших моделей в Исследовательском институте Baidu и долгое время был председателем секций ведущих AI-конференций, таких как NeurIPS, ICLR и ICML. Остальные члены команды — в основном недавние выпускники.

Ранее команда Catnip опубликовала технический отчет в социальной сети X, который сразу привлек внимание, и официальные представители LTX также активно искали сотрудничества. Команда сообщила, что в начале года получила посевное финансирование от инвестиционных организаций, включая Sequoia Capital и Mingshi Capital.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Ланкастерский университет запускает ядерный симулятор стоимостью 2 миллиона фунтов стерлингов
2026-06-20
Deutsche Telekom T-Systems и SupplyOn объединяют усилия для внедрения ИИ в европейские цепочки поставок
2026-06-20
Американская компания Hyperscale Data планирует закупить гуманоидных роботов на 13,4 млн долларов в третьем квартале 2026 года для развертывания в Мичигане
2026-06-20
Amazon рассматривает возможность продажи чипов Trainium AI центрам обработки данных
2026-06-20
Индийская компания Synergy Quantum представляет интегрированный постквантовый защищённый комплект SynQ Suite
2026-06-20
Американская компания Allbirds переименована в Smartbird, получив 143 миллиона долларов на переход в сферу ИИ-инфраструктуры
2026-06-20
Anglian Water и What Caused This создают цифровую платформу для анализа первопричин
2026-06-20
Американская компания Panthalassa завершила раунд финансирования серии B на сумму 140 миллионов долларов для расширения плавучей платформы данных
2026-06-20
UltramapGlobal обновляет платформу мониторинга оптоволоконных кабелей
2026-06-20
OQC инвестирует 92 миллиона евро в создание глобального центра исследований и производства в Барселоне, Испания
2026-06-20
Последние новости
1
AWS запускает Bedrock Managed Knowledge Base для упрощения эксплуатации RAG
2
Учёные Вильнюсского университета разработали модель для управления структурным светом без магнитного поля
3
Береговая охрана Индии получила первое отечественное судно на воздушной подушке
4
Индийская Amber подписала соглашение с Oppo о производстве смартфонов
5
Чешские O2 и Cetin завершат расширение сети в 32 локациях к концу июня
6
DFSK из Гонконга (Китай) представляет праворульный E5 PLUS с запасом хода 1200 км
7
Нидерландская TNO представляет платформу Möbius для переработки остаточных пластиковых потоков механической рециклинга
8
Учёные Калифорнийского университета разработали молекулярную солнечную батарею с плотностью энергии более 1,6 МДж/кг
9
Факультет прикладных наук Ахена и UIT разрабатывают контейнерную пилотную установку для производства биогаза
10
Руководитель Tata Technologies заявил, что Индия становится следующей крупной возможностью для мировых автопроизводителей