Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания управляемых и практичных визуальных образов

Содержание

- От 10 до 20 различных объектов в одном визуальном образе
- Ориентация на профессиональных дизайнеров

Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания удобных и полезных визуальных изображений. Инструмент оснащен функцией «привязки», которая позволяет правильно идентифицировать объекты и размещать их в нужном месте. Вместо того чтобы сосредоточиться только на художественной стороне вопроса, его также можно использовать для создания полезных визуальных материалов, таких как компьютерная графика или рекламные макеты. Этот инструмент подчеркивает стремление компании еще больше укрепить свои позиции в сфере профессионального дизайна.

На протяжении тысячелетий изображения использовались не только в эстетических целях, но и для коммуникации. Хотя люди уже десятилетиями используют такие творческие инструменты, как Adobe Photoshop или Illustrator, для создания цифровых изображений, на рынке все чаще появляется искусственный интеллект. Сегодня инструменты искусственного интеллекта уже способны создавать реалистичные изображения, о чем свидетельствует большое количество дипфейков, свободно циркулирующих в сети.

Однако, несмотря на впечатляющую производительность этих инструментов, они по-прежнему не способны создавать изображения, насыщенные информацией. Им не хватает функций подключения, которые обычно позволяют дизайнерам вручную собирать информацию для включения в визуальные материалы. В отличие от профессионалов, ИИ с трудом размещает указатели в правильных местах на сгенерированных изображениях.

Всего несколько лет назад модели ИИ начали успешно решать такие задачи, как «положить красный кубик на синий кубик». Однако они по-прежнему не способны генерировать текст или размещать его в правильном месте визуального изображения и часто пишут неразборчивые или неправильно написанные буквы. В результате они пока не способны создавать практичные или профессиональные визуальные изображения, такие как компьютерная графика.

Новости МирТесен

Говорят, что GPT-4o, выпущенный OpenAI в мае прошлого года, преодолевает эти ограничения и имеет потенциал конкурировать со специализированными инструментами цифровой обработки изображений. Однако новая модель генерации изображений была официально запущена только вчера, и до сих пор генерация изображений через ChatGPT осуществлялась с использованием модели DALL-E. OpenAI планирует постепенно заменить ее новой моделью в ближайшие недели. Новая модель также будет интегрирована в инструмент генерации видео Sora.

«Мы обучаем нашу модель на совместном распространении изображений и текста из Интернета, чтобы изучить не только связь между изображениями и языком, но и то, как они взаимодействуют друг с другом», — говорится в пресс-релизе компании.

Обратите внимание: Японские ученые осваивают технологии создания детей из клеток кожи.

«Благодаря улучшенному последующему обучению полученная модель демонстрирует замечательную визуальную беглость, создавая полезные, связные и контекстно-релевантные изображения.

От 10 до 20 различных объектов в одном визуальном образе

Модель генерации изображений, связанная с GPT-4o, предназначена для точной визуализации текстовых запросов и точной настройки инструкций, включая изменение загруженных пользователем изображений или использование их в качестве вдохновения. Другими словами, он может анализировать и извлекать уроки из получаемых изображений, интегрируя детали в контекст. Для этого модель уделяет особое внимание каждому пункту подсказки.

«Эти функции упрощают создание желаемых изображений, помогают более эффективно осуществлять визуальную коммуникацию и делают генерацию изображений практичным, точным и мощным инструментом», — заявили в OpenAI.

В то время как стандартные модели с трудом генерируют от 5 до 8 объектов на одном визуальном изображении, GPT-4o может генерировать до 20 различных объектов. Чем больше связей между объектами и их характеристиками, тем больше у вас контроля над визуальным дизайном. Например, демонстрация OpenAI демонстрировала визуальное представление с 16 отдельными графическими элементами, такими как голова кошки, молния, слово «OpenAI», цифры и многое другое

Пример визуального представления, созданного GPT-4o, объединяющего 16 отдельных объектов. © OpenAI

В другом видео была показана карточка с написанным на ней рецептом матча, а в третьем — отрывок из комикса с речевым пузырём. Эти визуальные образы требуют понимания точного порядка, чего большинству стандартных моделей достичь трудно. «Основная идея — отойти от визуального искусства», — сказал Кенджи Хата, исследователь OpenAI, который также участвовал в разработке инструмента. Однако он отметил, что инструмент по-прежнему сможет это делать, но будет иметь больше полезных функций.

Пример таблицы данных, созданной GPT-4o. © OpenAI

Ориентация на профессиональных дизайнеров

Запуск нового инструмента показывает, что OpenAI надеется привлечь в свою пользовательскую базу больше профессиональных дизайнеров, включая графических дизайнеров, рекламные агентства, иллюстраторов и т д.

Однако для завоевания этого рынка компании необходимо ориентироваться на экспертов, которые давно используют передовые инструменты для творчества, такие как Adobe Photoshop. «Adobe действительно крепко держит этот рынок, и они движутся так быстро, что я не знаю, насколько привлекательными окажутся эти изменения для людей», — сказал Дэвид Раскино, соучредитель и главный технический директор Irreverent Labs.

Вы также можете ориентироваться на дизайнеров-любителей, которые склонны использовать менее технические инструменты, такие как Canva. Чтобы это работало, скорость и качество изображений, генерируемых GPT-4o, должны оправдывать изменения. Несмотря на то, что эти дизайнеры не всегда используют сложные инструменты, они все равно требуют качества, особенно для профессионального использования.

Читайте все последние новости об искусственном интеллекте на New-Science.ru

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания управляемых и практичных визуальных образов.

Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания управляемых и практичных визуальных образов

От 10 до 20 различных объектов в одном визуальном образе

Ориентация на профессиональных дизайнеров

Полярный реликт эпохи динозавров: новый род млекопитающих из мезозоя Якутии

Компания планирует насытить российский рынок собственными кнопочными телефонами

Учёные раскрыли новый механизм, через который хроническое употребление алкоголя наносит серьёзный вред печени

Почему падает уровень образования