Репортаж от Wedoany,Google продемонстрировала на конференции для разработчиков последние достижения в технологии «модели мира». Модель под названием Project Genie способна в реальном времени генерировать интерактивные 3D-миры. В отличие от традиционных ИИ для генерации видео, Genie не выдает готовое видео целиком, а покадрово вычисляет и реагирует на команды пользователя с клавиатуры (например, влево, вправо, вперед), подобно тому, как работают языковые модели. Исследовательская группа отмечает, что первоочередная цель применения этой технологии — не игры, а симуляционное обучение в области робототехники и моделирование сценариев катастроф.
Одной из ключевых новинок этого обновления стала интеграция функции Google Street View. Теперь пользователи могут выбирать реальные места в качестве отправной точки, и модель сгенерирует интерактивный мир, начиная с этой локации. По словам менеджера по продукту Диего Риваса, идея этой функции возникла после того, как пользователи по собственной инициативе начали испытывать систему запросами вроде «Отвези меня в Нью-Йорк». В настоящее время функция поддерживается только на территории США, но уже планируется ее глобальное расширение.
На техническом уровне модель Genie 3 работает в реальном времени и обладает долговременной памятью и высоким разрешением вывода. Однако исследователи указывают, что команды пользователя с клавиатуры должны передаваться по сети на вычислительный кластер для обработки, а затем возвращаться в виде отрендеренных кадров, что предъявляет чрезвычайно высокие требования к контролю задержек. В настоящее время у модели все еще есть ограничения при обработке движения персонажей, окружающего шума и разрешения 4K, но команда заявляет, что уже определила направления для дальнейших улучшений.
В области применения Genie уже продемонстрировала широкий потенциал. Принадлежащая Google компания Waymo использует эту модель для моделирования редких дорожных ситуаций, таких как появление слона или торнадо на дороге. Кроме того, модель может использоваться для обучения роботов выполнению сложных задач, сокращая количество проб и ошибок в реальных условиях за счет симуляции среды.
Что касается долгосрочного применения в робототехнике, исследовательская группа считает модели мира основой технологии воплощенного интеллекта. Роботам необходимо обучаться в реалистичных симулированных средах, чтобы справляться с вызовами реального мира. В настоящее время команда все еще решает «проблему управления», то есть обеспечения надежного захвата объектов роботами и их передвижения по различным поверхностям.
Говоря о конкуренции в отрасли, команда оценила текущее состояние так: «По сравнению с большими языковыми моделями мы находимся на уровне 2021 года», имея в виду, что рынок все еще находится на ранней стадии, и многие участники по-разному определяют понятие «модель мира». Исследователи прогнозируют консолидацию отрасли в ближайшие несколько лет, и несколько крупных игроков будут доминировать на рынке. Помимо Genie 3, Google на этой конференции также представила языковые модели нового поколения Gemini 3.5 Flash и Gemini Omni Flash, причем последняя будет специализироваться на генерации видео и задачах автономных интеллектуальных агентов.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com










