OpenAI发布的《Addendum to GPT-4o System Card: Native image generation》文件的详尽笔记

Native_Image_Generation_System_Card

文件基本信息

文件名称：《Addendum to GPT-4o System Card: Native image generation》
发布机构：OpenAI
发布日期：2025年3月25日
主要内容：介绍GPT-4o模型中新增的原生图像生成功能，包括其能力、潜在风险、安全挑战以及OpenAI为应对这些挑战所采取的评估和缓解措施。

1. 引言

4o图像生成功能简介：4o图像生成是OpenAI推出的一种新型图像生成技术，相较于之前的DALL·E系列模型，它具有更强的能力，能够生成逼真的图像，并且可以接受图像作为输入进行转换，还能按照详细指令操作，包括可靠地将文本融入图像。由于其深度嵌入在GPT-4o模型的架构中，能够以微妙且富有表现力的方式应用这些能力，生成既美观又有用的图像。
安全基础设施与风险：4o图像生成受益于OpenAI现有的安全基础设施，并借鉴了部署DALL·E和Sora过程中积累的经验。然而，这种新能力也带来了一些新的风险，例如可能被用于创建或修改照片，从而对照片中的人物造成损害，或者生成制造武器的示意图等。因此，OpenAI在GPT-4o系统卡的补充说明中，详细描述了他们关注的边际风险以及为应对这些风险所做的工作。

2. 观察到的安全挑战、评估和缓解措施

2.1 安全挑战：原生图像生成带来的新风险

与DALL·E的区别：DALL·E是一种扩散模型，而4o图像生成是嵌入在ChatGPT中的自回归模型，这种根本区别带来了以下新能力及相应风险：
- 图像到图像的转换：能够以一个或多个图像作为输入，生成相关或修改后的图像。
- 逼真度：4o图像生成的高级逼真能力意味着其输出在某些情况下可能看起来像照片。
- 指令遵循：能够遵循详细指令并呈现文本和指令性图表，这既带来了不同于早期模型的实用性，也带来了风险。
风险示例：如果没有安全控制，4o图像生成可能会以对被描绘人物有害的方式创建或修改照片，或者提供制造武器的示意图等。
风险应对策略：OpenAI借鉴多模态模型以及Sora和DALL·E视觉生成工具的经验，针对4o图像生成特有的新风险进行了映射和应对。他们致力于在最大化用户帮助性和创造性自由的同时，最小化伤害，并且会根据实际使用情况不断评估和调整政策。

2.2 安全堆栈

聊天模型拒绝：在ChatGPT和API中，主要聊天模型是防止生成违反政策内容的第一道防线。基于其训练后的安全措施，聊天模型可以根据用户的提示拒绝触发图像生成过程。
提示阻止：在调用4o图像生成工具后，如果文本或图像分类器标记提示违反政策，则阻止该工具生成图像。通过预先识别和阻止提示，这一措施有助于在内容生成之前防止生成不允许的内容。
输出阻止：在图像生成后应用这种方法，使用包括儿童性虐待材料（CSAM）分类器和以安全为重点的推理监控器在内的多种控制手段，阻止违反政策的图像输出。监控器是一个定制训练的多模态推理模型，用于推理内容政策。通过在生成后评估输出，这一策略旨在阻止任何违反政策的内容，为防止生成不允许的内容提供额外保障。
未成年人的额外保障：使用上述所有缓解措施，为可能未满18岁的用户提供更安全的体验，并限制这些用户创建某些可能不适合其年龄的内容类别。目前，未满13岁的用户被禁止使用OpenAI的任何产品或服务。

2.3 评估

评估方法：OpenAI通过以下三种来源的提示来观察4o图像生成安全堆栈的性能：
- 外部手动红队测试
- 自动化红队测试
- 使用现实场景进行离线测试
外部手动红队测试：
- OpenAI与经过审查的外部红队成员（来自红队网络和Scale AI）合作，对4o图像生成进行测试。这些测试是在内部测试4o图像生成的原始模型能力之后进行的，以评估模型的原始能力并确定测试的重点领域。
- 红队成员被要求探索各种优先主题领域，并开发和使用各种越狱方法和策略，试图绕过模型的安全防护。
- 测试完成后，将数千次手动对抗性对话合并并转换为自动化评估。重新运行安全堆栈，并跟踪以下两个主要指标：
  - not_unsafe：系统是否生成违反模型政策的输出？
  - not_overrefuse：系统是否拒绝符合模型政策的请求？
- 表1显示了仅使用系统缓解措施（提示阻止和输出阻止）以及同时使用系统缓解措施和聊天模型拒绝时，4o图像生成在外部红队测试数据上的整体性能指标。
自动化红队测试：
- 在自动化红队测试中，使用上述模型政策生成合成对话，以探测系统对模型政策每个部分的性能表现。这些合成对话使我们能够比单独使用手动红队测试更全面地测试系统对政策的实施情况。
- 生成了数千次不同类别的合成对话，包括有无图像上传的情况，以补充手动红队测试人员的工作。
- 表2显示了仅使用系统缓解措施（提示阻止和输出阻止）以及同时使用系统缓解措施和聊天模型拒绝时，4o图像生成在自动化红队测试数据上的整体性能指标。结果表明，其性能与人类红队测试数据相似，这进一步增强了我们对政策在各种对话中一致有效性的信心。
使用现实场景进行离线测试：
- 还在反映现实场景的文本提示上评估了4o图像生成的安全堆栈，以评估模型在生产环境中的行为。这包括来自不同安全类别的示例，以使评估具有代表性，反映生产中实际遇到的分布情况。这有助于我们了解模型在实际条件下的表现，并突出可能需要额外安全措施的领域。
- 表3显示了仅使用系统缓解措施（提示阻止和输出阻止）以及同时使用系统缓解措施和聊天模型拒绝时，4o图像生成在现实场景测试中的整体性能指标。

2.4 特定风险领域的讨论

2.4.1 儿童安全

OpenAI的承诺：OpenAI高度重视儿童安全风险，优先预防、检测和报告所有产品（包括4o图像生成）中的儿童性虐待材料（CSAM）内容。
4o图像生成中的具体模型政策：
- 在发布时，不允许编辑上传的逼真儿童图像。未来将评估是否可以安全地允许编辑。
- 加强了针对儿童性虐待材料（CSAM）的现有保护措施，无论是在图像编辑还是图像生成方面。
检测机制：
- 对于所有图像上传，整合了Thorn开发的Safer，以检测与已知CSAM的匹配情况。确认匹配的图像将被拒绝并报告给NCMEC，相关用户账户将被封禁。此外，还利用Thorn的CSAM分类器识别图像上传和4o图像生成生成的图像中可能的新未哈希CSAM内容。
- 利用多模态审核分类器检测并阻止任何涉及未成年人的性内容。
- 对于4o图像生成，基于Sora中使用的现有18岁以下分类器，构建了一个逼真人分类器，用于分析所有上传图像，预测其中是否描绘了未成年人。在发布时，只有在不是对逼真未成年人图像进行编辑的情况下，才允许生成逼真的儿童图像。此外，逼真的儿童生成必须遵守我们所有政策的安全约束。
- 逼真人分类器接收上传的图像，并预测以下三个标签之一：
  - 无逼真人
  - 逼真成人
  - 逼真儿童
- 如果图像中同时包含逼真成人和逼真儿童，分类器被设计为返回“逼真儿童”作为预测结果。
- 表4显示了该分类器在包含近4000张图像的数据集上的评估结果，这些图像分为[儿童|成人]和[逼真|非逼真]类别。
- 目前，分类器的准确度很高，但可能会偶尔错误分类图像。例如，长相年轻的成年人可能会被错误标记为儿童。为了安全起见，分类器被调整为在分类边界或模糊情况下倾向于将图像标记为“儿童”。OpenAI致力于使用更好的模型和更好的评估集来提高分类器的性能。