OpenAI 推出图像生成新突破:GPT-4o 实现图像编辑对话化

news2025/4/1 5:09:45

关键要点

  • OpenAI 推出了 4o 图像生成功能,集成于 GPT-4o,提供精准且逼真的图像生成。

  • 它似乎适用于多种用户,包括免费用户,API 访问预计几周内推出。

  • 安全措施包括 C2PA 元数据和内容屏蔽,限制生成不适当图像。

  • 研究表明,该功能可能偶尔裁剪较长图像,影响完整性。

OpenAI 于北京时间3月26日凌晨发布推出 4o 图像生成功能,这是一个集成于 GPT-4o 的新特性,旨在提供精准且逼真的图像生成。这一发展标志着 AI 技术在视觉内容创作领域的重大进步,为用户提供了一个功能强大的工具,适用于艺术、设计、广告等多个领域。

什么是 4o 图像生成?

4o 图像生成是一个原生多模态模型,设计上能够同时处理和生成不同媒体类型的内容,如文本和图像。它通过无缝整合文本指令和视觉数据,生成不仅美观且与上下文相关的图像。这一特性使其在处理复杂需求时更加高效,增强了用户体验。

关键功能与能力

4o 图像生成功能提供了以下主要能力:

  • 文本渲染:根据详细的文本描述生成图像,确保图像的准确性和细节。

  • 多轮生成:支持通过多次交互逐步优化图像,允许用户调整和改进。

  • 指令遵循:能够遵循用户特定的指令,满足特定的标准或风格。

  • 上下文学习:在同一交互中适应新的信息或偏好,动态调整输出。

  • 世界知识:整合广泛的通用知识,确保生成的图像与上下文相关。

  • 逼真度:生成高度逼真的图像,接近真实照片的效果。

  • 风格化:允许用户指定艺术风格或视觉美学,满足个性化需求。

这些功能使 4o 图像生成成为一个多功能的工具,适用于从艺术创作到商业应用的广泛场景。

以下是一些案列:

✅实用性增强

  • 不仅适用于艺术创作,也擅长生成:

    • 信息类图像(如标志、图表、示意图)

    • 准确表达结构、符号、文字与含义的图像

  • 支持将上传的图片作为“灵感源”进行生成

  • 能够精确生成图片中的文字(如横幅、书籍封面、广告牌等)

  • 解决了传统模型常出现的错字、乱码、字体扭曲问题

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
一个方形图像,包含一个 4 行 x 4 列的网格,其中包含 16 个对象,背景为白色。从左到右,从上到下。这是列表:

  1. 1. a blue star  1. 一颗蓝色的星星

  2. 2. red triangle  2. 红色三角形

  3. 3. green square  3. 绿色方块

  4. 4. pink circle  4. 粉红色圆圈

  5. 5. orange hourglass  5. 橙色沙漏

  6. 6. purple infinity sign  6. 紫色无限符号

  7. 7. black and white polka dot bowtie

  8. 8. 黑白波点领结

  9. 9. tiedye "42"  8. 铁染料 “42”

  10. 10. an orange cat wearing a black baseball cap

  11. 11. 一只戴着黑色棒球帽的橘猫

  12. 12. a map with a treasure chest

  13. 13. 一张带有宝箱的地图

  14. 14. a pair of googly eyes

  15. 15. 一双咕噜咕噜的眼睛

  16. 16. a thumbs up emoji

  17. 17. 竖起大拇指的表情符号

  18. 18. a pair of scissors

  19. 19. 一把剪刀

  20. 20. a blue and white giraffe

  21. 21. 一只蓝色和白色的长颈鹿

  22. 22. the word "OpenAI" written in cursive

  23. 23. 用草书书写的“OpenAI”一词

  24. 24. a rainbow-colored lightning bolt

  25. 25. 彩虹色的闪电

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
创建两个 20 多岁的女巫(一个是灰烬女巫,一个留着赤褐色的长发)阅读路标的照片级真实感图像。

Context:   上下文:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
纽约州威廉斯堡一条随机街道上的一条城市街道,一根杆子上完全覆盖着许多详细的街道标志(例如,街道清扫时间、所需的停车许可证、车辆分类、拖车规则),包括中间的一些荒谬标志:(转述它以制作这些合法的街道标志)“C 区不允许为女巫提供扫帚停车位”和“仅限魔毯装卸(15 分钟限制)”和“仅凭许可证停放驯鹿(12 月 24 日至 25 日)\n 违规者将被列入淘气名单。路标位于街道的右侧。不要重复标志。标志必须是现实的。

Characters:  字符:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一个女巫拿着扫帚,另一个女巫拿着卷起的魔毯。他们在前景中,背对着镜头微微倾斜,在仔细检查标志时头部微微倾斜。

Composition from background to foreground:
从背景到前景的合成:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。角色必须离拍摄的摄像机最近

✅ 高精度文本渲染

  • GPT-4o 能更好地将文字嵌入图像(如海报、PPT、广告)

  • 对复杂 prompt 的遵循度高,支持 prompt 中描述 10–20 个物体对象及其属性、关系,超越 DALL·E 3 的 ~5–8 个极限

  • 每个物体的属性、关系可被分别控制,图像结构更加精细清晰

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。

The text reads:  文字写道:

(left)  (左)
"Transfer between Modalities:
“在模式之间转移:

Suppose we directly model
假设我们直接建模
p(text, pixels, sound) [equation]
p(文本、像素、声音) [方程]
with one big autoregressive transformer.
带有一个大的自回归变压器。

Pros:  优点:

  • • image generation augmented with vast world knowledge

  • • 利用广阔的世界知识增强图像生成

  • • next-level text rendering

  • • 更高级别的文本渲染

  • • native in-context learning

  • • 原生上下文学习

  • • unified post-training stack

  • • 统一的训练后堆栈

Cons:  缺点:

  • • varying bit-rate across modalities

  • • 不同模式的比特率不同

  • • compute not adaptive"   计算非自适应”

(Right)  (右)
"Fixes:  “修复:
model compressed representations

  • • 模型压缩表示

  • • compose autoregressive prior with a powerful decoder"

  • • 使用强大的解码器编写 autoregressive 先验”

On the bottom right of the board, she draws a diagram:
在板的右下角,她画了一个图表:
"tokens -> [transformer] -> [diffusion] -> pixels"

继续编辑修改↓

selfie view of the photographer, as she turns around to high five him
摄影师的自拍照片,她转身与他击掌

✅ 上下文一致性与连续创作

  • 用户可以与 GPT-4o 多轮互动迭代图像内容

  • 对话驱动式图像生成

    • 用户可以说:“把刚才那张图里的人换成女性”或“背景换成夜晚风格”

    • 模型会自动在上下文中找出之前图像并按指令修改,无需重新描述全部细节

  • 在创作游戏角色或品牌形象时,形象可以在多张图中保持一致风格

  • 支持用户上传图片作为上下文,分析图中内容后进行“风格模仿”或“结构转化”

Give this cat a detective hat and a monocle
给这只猫一顶侦探帽和单片眼镜

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的叠加层,我们可以在顶部看到健康条和小地图,以及底部具有一致和图标的法术

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新为横向图像 16:9 比例,在 UI 中添加更多法术,并取消缩放视觉对象,以便我们以第三人称视角看到猫走过蒸汽朋克曼哈顿,从而产生美丽的对比和照明,就像在最好的 3A 游戏中一样,具有冷色调

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
当玩家打开菜单时创建界面,我们会看到猫的角色资料和他的设备,以及另一个显示活动任务的页面(这与我们在图像中描述的宇宙世界构建的关系应该是有意义的)

✅ 4. 图像风格丰富 & 写实能力强

GPT-4o 支持丰富的图像风格,包括:

  • 训练数据覆盖多种风格(漫画、摄影、插画、平面设计等),使 GPT-4o 具备强大的 风格迁移和控制能力

  • 可生成:

    • 高度写实照片风格图

    • 具有“新闻照片感”的场景图(示例:卡尔·马克思逛商场 paparazzi 风格)

与 DALL·E 3 的区别

访问与可用性

  • 用户层级:从 发布日起,Plus、Pro、Team 和免费用户可在 ChatGPT 中默认使用该功能。

  • 企业与教育用户:预计不久后将对企业用户和教育用户开放。

  • Sora 集成:该功能也将可在 OpenAI 的另一工具 Sora 中使用。

  • DALL·E 兼容:之前的 DALL·E 模型仍可通过专用 GPT 访问。

  • API 访问:开发者 API 访问预计在未来几周内推出。

  • 渲染时间:生成图像可能需要最多一分钟,用户需耐心等待。

这一广泛的可用性确保了不同用户群体都能利用 AI 进行图像生成,扩大了技术的应用范围。

安全措施

OpenAI 实施了多项安全措施,以确保 4o 图像生成功能的安全使用:

  • C2PA 元数据:追踪生成图像的来源和历史,帮助对抗虚假信息。

  • 内部可逆搜索工具:允许追踪和管理任何问题内容。

  • 内容屏蔽:阻止生成儿童性虐待材料和性深伪图像,防止滥用。

  • 强化限制:对真实人物图像有更严格的控制,特别是在裸露和暴力内容方面。

  • 推理语言模型:使用语言模型来确保符合伦理指南。

限制

尽管 4o 图像生成功能高度先进,但仍存在一些限制:

  • 紧缩裁剪:对于较长的图像(如海报),可能偶尔在底部紧缩裁剪,可能会切掉重要内容。

用户应注意这一限制,并根据需要调整提示或预期。

结论

OpenAI 推出 4o 图像生成功能,展示了公司在推进 AI 技术的同时,注重安全性和可访问性的承诺。这一新特性有望改变我们创建和互动视觉内容的方式,提供前所未有的图像生成能力。

随着技术的持续发展,我们可以期待进一步的改进和扩展,为创意和创新开启更多可能性。

团队与贡献者

这一突破性技术的背后,是 OpenAI 多个团队的协作努力,包括基础研究团队、核心开发团队、数据管理团队、扩展团队、应用工程团队以及安全和战略团队。这些团队的领导和成员名单详见原始页面,但为了保持文章的简洁性,这里仅提及其广泛的协作性质。

以下是页面内容的详细总结,包括所有相关信息、精确数字和 URL,供参考:

部分

详情

标题

推出 4o 图像生成

日期

2025 年 3 月 25 日

类别

产品,发布

主要功能

- 原生多模态模型,提供精准、逼真的图像生成

- 集成于 GPT-4o

- 能力:文本渲染、多轮生成、指令遵循、上下文学习、世界知识、逼真度和风格

访问与可用性

- 发布日已对 Plus、Pro、Team 和免费用户在 ChatGPT 中默认开放

- 企业和教育用户即将开放,也将在 Sora 中可用

- DALL·E 仍可通过专用 GPT 访问

- API 访问未来几周内推出

- 图像渲染时间:最多 1 分钟

安全措施

- C2PA 元数据用于来源追踪

- 内部可逆搜索工具

- 屏蔽儿童性虐待材料、性深伪图像

- 对真实人物图像(裸露、暴力)有更严格限制

- 推理语言模型用于安全规范

限制

- 偶尔紧缩裁剪较长图像(如海报)可能偶尔在底部紧缩裁剪,可能会切掉重要内容。

这一表格总结了页面内容的全部信息,包括日期、功能、安全措施和团队贡献,提供了全面的背景资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

android11关机安卓充电的UI定制化

引言 首先上一张安卓充电的图片: 安卓关机状态下有两种充电模式:uboot-charge和android-charge,可通过dts配置使用哪一种充电模式。 dts配置中uboot-charge和android-charge是互斥的,如下配置的是开启android-charge:…

Web前端之JavaScript的DOM操作冷门API

MENU 前言1、Element.checkVisibility()2、TreeWalker3、Node.compareDocumentPosition()4、scrollIntoViewIfNeeded()5、insertAdjacentElement()6、Range.surroundContents()7、Node.isEqualNode()8、document.createExpression()小结 前言 作为前端开发者,我们每…

集成开发环境革新:IntelliJ IDEA与Cursor AI的智能演进

集成开发环境革新:IntelliJ IDEA 与 Cursor AI 的智能演进 集成开发环境(IDE) 是软件开发者必不可少的工具。一个优秀的 IDE 不仅能够帮助编写和调试代码,还能集成版本控制和代码优化等多种功能。如今,随着人工智能&a…

EXCEL报错:无法共享此工作薄,因表包含excel表或xml映射的解决方法

在分享工作薄是,如果出现了“无法共享此工作薄,因表包含excel表或xml映射”的报错,那么有两个原因: 1.包含Excel表格,这个也是相对比较常见的原因。 首先选中表格。如果你不知道表的位置在哪,那么在Excel左…

《Linux运维实战:Ubuntu 22.04配置pam实现密码复杂度策略》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:Linux运维实战总结 一、背景信息 由于安全方面的考虑,先要求Ubuntu 22.04系统需配置密码复杂度策略,先要求如下&#xff1…

从代码学习深度学习 - 使用块的网络(VGG)PyTorch版

文章目录 前言一、VGG网络简介1.1 VGG的核心特点1.2 VGG的典型结构1.3 优点与局限性1.4 本文的实现目标二、搭建VGG网络2.1 数据准备2.2 定义VGG块2.3 构建VGG网络2.4 辅助工具2.4.1 计时器和累加器2.4.2 准确率计算2.4.3 可视化工具2.5 训练模型2.6 运行实验总结前言 深度学习…

Windows 安装多用户和其它一些问题 VMware Onedrive打不开

以下以win10家庭版为例,win11、专业版类似。 Onedrive相关问题参看我的其他文章: Windows如何同时登录两个OneDrive个人版账号_onedrive登录两个账号-CSDN博客 win10 win11 设置文件权限以解决Onedrive不能同步问题_onedrive没有同步权限-CSDN博客 O…

java基础自用笔记:异常、泛型、集合框架(List、Set、Map)、Stream流

异常 异常体系 编译时异常代表程序觉得你可能会出错。 运行时异常代表已经出错 异常基本处理 异常的作用 可以在可能出现的异常的地方用返回异常来代替return,这样提醒程序出现异常简洁清晰 自定义异常 最好用运行时异常,不会像编译时异常那样烦人&a…

第六届 蓝桥杯 嵌入式 省赛

参考 第六届蓝桥杯嵌入式省赛程序设计题解析(基于HAL库)_蓝桥杯嵌入式第六届真题-CSDN博客 一、分析功能 RTC 定时 1)时间初始化 2)定时上报电压时间 ADC测量 采集电位器的输出电压信号。 串行功能 1)传送要设置…

爱普生FC-135晶振5G手机的极端温度性能守护者

在5G时代,智能手机不仅需要高速率与低延迟,更需在严寒、酷暑、振动等复杂环境中保持稳定运行。作为 5G 手机的核心时钟源,爱普生32.768kHz晶振FC-135凭借其宽温适应性、高精度稳定性与微型化设计,成为5G手机核心时钟源的理想选择&…

如何备份你的 Postman 所有 Collection?

团队合作需要、备份,还是迁移到其他平台,我们都需要在 Postman 中将这些珍贵的集合数据导出。 如何从 Postman 中导出所有集合(Collection)教程

MinGW下编译ffmpeg源码时生成compile_commands.json

在前面的博文MinGW下编译nginx源码中,有介绍到使用compiledb工具在MinGW环境中生成compile_commands.json,以为compiledb是捕获的make时的输出,而nginx生成时控制台是有输出编译时的命令行信息的,笔者之前编译过ffmpeg的源码&…

【数据结构】树与森林

目录 树的存储方法 双亲表示法 孩子表示法 孩子兄弟表示法 树、森林与二叉树的转换 树转换成二叉树 森林转换成二叉树 二叉树转换成森林 树与森林的遍历 树的遍历 森林的遍历 树的存储方法 双亲表示法 这种存储结构采用一组连续空间来存储每个结点,同时…

跟着StatQuest学知识08-RNN与LSTM

一、RNN (一)简介 整个过程权重和偏置共享。 (二)梯度爆炸问题 在这个例子中w2大于1,会出现梯度爆炸问题。 当我们循环的次数越来越多的时候,这个巨大的数字会进入某些梯度,步长就会大幅增加&…

【SpringCloud】Eureka的使用

3. Eureka 3.1 Eureka 介绍 Eureka主要分为两个部分: EurekaServer: 作为注册中心Server端,向微服务应用程序提供服务注册,发现,健康检查等能力。 EurekaClient: 服务提供者,服务启动时,会向 EurekaS…

初识MySQL · 数据类型

目录 前言: 数值类型 文本、二进制数据类型 时间类型 String类型 前言: 对于MySQL来说,是一门编程语言,可能定义不是那么的严格,但是对于MySQL来说也是拥有自己的数据类型的,比如tinyint,…

QT图片轮播器(QT实操学习2)

1.项目架构 1.UI界面 2.widget.h​ #ifndef WIDGET_H #define WIDGET_H#include <QWidget>#define TIMEOUT 1 * 1000 QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpublic:Widget(QWidget *parent n…

深度解析衡石科技HENGSHI SENSE嵌入式分析能力:如何实现3天快速集成

嵌入式分析成为现代SaaS的核心竞争力 在当今SaaS市场竞争中&#xff0c;数据分析能力已成为产品差异化的关键因素。根据Bessemer Venture Partners的最新调研&#xff0c;拥有深度嵌入式分析功能的SaaS产品&#xff0c;其客户留存率比行业平均水平高出23%&#xff0c;ARR增长速…

杂草YOLO系列数据集4000张

一份开源数据集——杂草YOLO数据集&#xff0c;该数据集适用于农业智能化、植物识别等计算机视觉应用场景。 数据集详情 ​训练集&#xff1a;3,664张高清标注图像​测试集&#xff1a;180张多样性场景样本​验证集&#xff1a;359张严格筛选数据 下载链接 杂草YOLO数据集分…

Vue 2 探秘:visible 和 append-to-body 是谁的小秘密?

&#x1f680; Vue 2 探秘&#xff1a;visible 和 append-to-body 是谁的小秘密&#xff1f;&#x1f914; 父组件&#xff1a;identify-list.vue子组件&#xff1a;fake-clue-list.vue 嘿&#xff0c;各位前端探险家&#xff01;&#x1f44b; 今天我们要在 Vue 2 的代码丛林…