GPT-4o: OpenAI запускает профессиональный генератор изображений для дизайнеров

OpenAI представила новую модель генерации изображений, интегрированную с GPT-4o, которая нацелена на создание не просто художественных картинок, а функциональных и управляемых визуальных материалов для профессионального использования. Ключевой особенностью инструмента является функция «привязки» (grounding), позволяющая точно идентифицировать объекты и корректно размещать их в заданном контексте. Это открывает возможности для создания компьютерной графики, рекламных макетов, инфографики и других практичных визуальных продуктов, что знаменует стратегический шаг компании в сторону укрепления позиций на рынке профессионального дизайна.

Исторически изображения служили не только для эстетики, но и для передачи информации. Хотя цифровые инструменты вроде Adobe Photoshop десятилетиями были стандартом для дизайнеров, сейчас на сцену активно выходит искусственный интеллект. Современные ИИ-модели уже способны генерировать фотореалистичные изображения, о чём красноречиво свидетельствует распространение дипфейков. Однако до сих пор им не хватало способности создавать информационно насыщенные и структурно сложные композиции, которые требуют точного расположения элементов и текста.

Долгое время ИИ испытывал трудности с задачами, требующими пространственного и контекстного понимания, такими как корректное размещение текстовых указателей или генерация читабельного текста на изображении. Это ограничивало их применение в профессиональной сфере, где важна не только визуальная привлекательность, но и точность и полезность контента.

Прорыв в связности и контроле

Новая модель, основанная на GPT-4o, выпущенном в мае прошлого года, призвана преодолеть эти ограничения. В отличие от предыдущей системы DALL-E, которая до сих пор использовалась в ChatGPT, новая модель обучалась на совместном анализе изображений и текста из интернета. Это позволило ей понять не только связь между словами и картинками, но и принципы их взаимодействия в едином пространстве. Как заявили в OpenAI, улучшенное обучение привело к «замечательной визуальной беглости», позволяющей создавать связные, контекстно-релевантные и полезные изображения.

Модель способна точно визуализировать сложные текстовые запросы, редактировать загруженные пользователем изображения и использовать их как референс, интегрируя детали в новый контекст. Особое внимание уделяется каждому пункту промпта (текстового описания), что даёт пользователю беспрецедентный контроль над результатом.

Обратите внимание: Японские ученые осваивают технологии создания детей из клеток кожи.

Масштаб и сложность композиций

Одним из ключевых преимуществ новой модели является её способность работать с большим количеством объектов одновременно. Если стандартные модели с трудом генерируют 5-8 объектов на одном изображении, GPT-4o может управлять до 20 различными элементами, учитывая связи между ними и их атрибутами. Это открывает двери для создания сложных инфографик, комиксов, рецептов, технических схем и других композиций, где важен точный порядок и расположение.

Пример визуального представления, созданного GPT-4o, объединяющего 16 отдельных объектов. © OpenAI

В демонстрациях OpenAI были показаны изображения, содержащие до 16 отдельных графических элементов (голова кошки, молния, текст «OpenAI», цифры), карточка с рецептом матча и кадр из комикса с речевым пузырём. Как отметил исследователь OpenAI Кенджи Хата, основная идея — сместить фокус с чистого визуального искусства в сторону полезных функций, хотя инструмент сохранит и художественные возможности.

Пример таблицы данных, созданной GPT-4o. © OpenAI

Битва за рынок профессионального дизайна

Запуск этого инструмента — явный сигнал о намерении OpenAI привлечь профессиональных дизайнеров: графических дизайнеров, иллюстраторов, сотрудников рекламных агентств. Однако компания сталкивается с жёсткой конкуренцией на рынке, где доминируют такие гиганты, как Adobe с их устоявшимися решениями вроде Photoshop. Как отметил Дэвид Раскино из Irreverent Labs, Adobe движется очень быстро, и неочевидно, насколько новые возможности ИИ смогут переманить опытных пользователей их продуктов.

Альтернативной аудиторией могут стать дизайнеры-любители и специалисты, использующие более простые инструменты вроде Canva. Для них скорость и качество генерации GPT-4o могут стать решающими факторами. Даже для непрофессионального использования часто требуется высокое качество визуалов, особенно если результат предназначен для публикации или бизнес-задач.

Новая модель будет постепенно внедряться в ChatGPT в ближайшие недели, а также планируется её интеграция с видео-генератором Sora, что может создать единую мощную экосистему для создания мультимедийного контента.

Читайте все последние новости об искусственном интеллекте на New-Science.ru

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания управляемых и практичных визуальных образов.