Репортаж от Wedoany,Компания Google недавно выпустила две новые модели для разработчиков: Gemini Omni Flash и Nano Banana 2 Lite. Первая глубоко интегрирует мультимодальные рассуждения с генерацией и редактированием видео, в то время как вторая ориентирована на высокоскоростную генерацию изображений.
Модель Gemini Omni Flash была представлена на конференции Google I/O 2026. Её ключевая особенность заключается в интеграции мультимодальных рассуждений Gemini в процессы генерации и редактирования видео. Модель уже доступна через Gemini API и Google AI Studio. Её четыре ключевые возможности включают: диалоговое редактирование видео, позволяющее пользователям уточнять видео с помощью естественного языка; мультимодальные референсы, которые могут комбинировать ввод изображений, текста и видео для поддержания согласованности сцены; использование знаний Gemini в таких областях, как история, биология и повествовательная логика, для построения видео; а также синхронизацию текста и движений в видео с помощью простых подсказок. Что касается цены, стоимость вывода одной секунды видео для Omni Flash составляет 0,10 доллара США, что соответствует цене Veo 3.1 Fast.
Google также перечислил текущие ограничения модели: в настоящее время поддерживается только генерация видео длительностью до 10 секунд, не поддерживается загрузка аудиореференсов и расширение сцены, API поддерживает видео длительностью до 3 секунд в качестве референсного материала, но модель пока не может корректно обрабатывать такой ввод, а согласованность персонажей при смене сцен и движении камеры всё ещё ограничена.
Другая модель, Nano Banana 2 Lite, имеет название gemini-3.1-flash-lite-image и оптимизирована для сценариев, чувствительных к задержке. Её ключевое преимущество заключается в задержке генерации изображений около 4 секунд, что составляет одну пятую от задержки Nano Banana 2; стоимость генерации одного изображения разрешением 1K составляет около 0,034 доллара США, что вдвое дешевле Nano Banana 2 и в четыре раза дешевле Nano Banana Pro. По качеству рендеринга текста и бенчмаркам Nano Banana 2 Lite находится на одном уровне с такими моделями, как Grok, и подходит для таких сценариев, как массовая генерация материалов для электронной коммерции и итерация креативов для рекламы.

Google продемонстрировал рабочий процесс, объединяющий две модели: сначала с помощью Nano Banana 2 Lite быстро генерируется изображение, а затем полученное изображение используется в качестве референсного материала для Gemini Omni Flash, преобразуя его в видео. Для этого Google разработал три демонстрационных приложения: Anywhere, которое позволяет вставлять селфи или загруженные фотографии в изображения достопримечательностей и создавать динамические короткие видео; Space Lift, которое после загрузки фотографии комнаты генерирует различные варианты дизайна интерьера и может преобразовывать их в видео для виртуального тура по пространству; и Omni Product Studio, которое генерирует контекстные изображения и короткие рекламные видео для товаров электронной коммерции.

Ссылка: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/









