Корпорация Google анонсировала Gemini Omni — новую мультимодальную модель, предназначенную для генерации и сложной переработки видеоконтента. Технология расширяет возможности системы Veo и позволяет создавать ролики, используя в качестве исходных данных не только текст, но и аудио, статические изображения, а также реальные видеозаписи.
Возможности новой модели Omni Flash
В основе анонсированного решения лежит модель Omni Flash. Ее ключевое отличие от предыдущих версий нейросетей заключается в способности радикально изменять уже существующий отснятый материал, превращая обычные кадры в сюрреалистичные сцены. При этом система обеспечивает высокую согласованность персонажей и объектов на протяжении всего видеоряда.
Разработчики отмечают несколько важных технических особенностей Gemini Omni:
- Понимание физики: модель учитывает законы гравитации, кинетическую энергию и динамику жидкостей для создания реалистичного движения.
- Мультимодальный анализ: нейросеть одновременно обрабатывает разные типы данных, что позволяет ей «продумывать» сюжет и логику повествования.
- Интерактивное редактирование: пользователи могут уточнять и изменять полученный результат с помощью текстовых команд на естественном языке.
- Персонализация: функция Avatars позволяет создавать цифровых персонажей, которые сохраняют внешность и голос реального человека.
Интеграция в сервисы и доступность
Новая технология станет доступна через несколько платформ. Подписчики платных тарифных планов Google AI Plus, Pro и Ultra смогут воспользоваться функциями Omni непосредственно в приложении Gemini. Кроме того, модель будет интегрирована в Flow — профессиональный инструмент Google для создания ИИ-фильмов.
Для широкой аудитории предусмотрена интеграция с YouTube. В обзоре отмечается, что пользователи смогут бесплатно создавать «ремиксы» на основе существующих коротких роликов Shorts. Инструментарий будет доступен как в основном приложении видеохостинга, так и в специализированном редакторе YouTube Create. На данный момент компания не уточнила, получат ли авторы оригинального контента возможность ограничивать использование своих видео для подобной нейросетевой обработки.


