Google I/O 2024: Veo 3, Flow и Imagen 4 — новая эра генерации медиаконтента

На ежегодной конференции разработчиков Google I/O компания представила целый ряд инновационных моделей искусственного интеллекта, призванных кардинально изменить процесс создания медиаконтента. Центральным анонсом стала модель Veo 3 — первый ИИ от Google, способный генерировать полноценные видеоролики со звуковым сопровождением. Это открывает новые горизонты для творчества: теперь можно создавать, например, короткие клипы с поющими птицами или динамичные городские зарисовки с фоновым шумом улицы.

По заявлениям Google, Veo 3 демонстрирует превосходство над аналогами в реалистичности физики движений и точной синхронизации движения губ с речью. На начальном этапе доступ к модели получат пользователи подписки Gemini Ultra в США через приложение Gemini, а также корпоративные клиенты на платформе Vertex AI. Важной частью экосистемы стал новый инструмент Flow, который использует возможности Veo 3 для кинопроизводства.

Flow: киностудия на основе ИИ

Flow представляет собой комплексную платформу, объединяющую сильные стороны моделей Veo (видео), Imagen (изображения) и Gemini (текст). Пользователь может создавать целые киносцены, просто описывая их на естественном языке. Пока что инструмент доступен ограниченному кругу подписчиков в США, но в планах компании — его глобальное расширение.

Интересно, что Google не отказывается от предыдущей версии, и Veo 2 останется в продуктовой линейке.

Обратите внимание: Бывший босс Google: «Через десять лет в мире будет два интернета».

Flow предлагает продвинутые функции персонализации: можно загружать референсные изображения людей, объектов или стилей, чтобы ИИ использовал их как основу для генерации видео. Также предусмотрен полный контроль над виртуальной камерой: смена ракурсов, масштабирование и даже преобразование формата видео (например, из вертикального в горизонтальное).

Imagen 4 — новая эра генерации изображений

Параллельно с видео-инструментами Google представила новое поколение своей модели для создания изображений — Imagen 4. Модель совершила качественный скачок в детализации, теперь она гораздо лучше передаёт текстуры сложных тканей, шерсть животных и другие тонкие элементы. Она с одинаковым успехом работает как с фотореалистичными запросами, так и с абстрактными концепциями.

Ключевыми улучшениями также стали продвинутая работа с текстом (типографика) и поддержка генерации изображений в различных соотношениях сторон с разрешением до 2K. Imagen 4 будет интегрирована в экосистему Google: Gemini, Vertex AI и Workspace (для создания иллюстраций в Документах и Презентациях). Компания обещает, что новая модель будет в десять раз быстрее своей предшественницы, Imagen 3.

SynthID Detector: проверка на "искусственность"

Осознавая риски, связанные с распространением синтетического контента, Google запустила инструмент для повышения прозрачности — SynthID Detector. Это специальный портал, куда можно загрузить изображение или видео, чтобы проверить, содержит ли оно цифровую метку (водяной знак) SynthID, которую Google добавляет в контент, созданный её собственными ИИ-моделями.

Важно понимать, что этот детектор не является универсальным решением для идентификации всего ИИ-контента, так как не все генераторы используют аналогичную технологию маркировки. Тем не менее, запуск такого сервиса подчёркивает растущую важность ответственного подхода к разработке и распространению технологий генеративного искусственного интеллекта.

Читайте все последние новости об искусственном интеллекте на New-Science.ru

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: На ежегодной конференции для разработчиков Google I/O компания анонсировала новые модели генерации медиаконтента.