OpenAI和其他领先的人工智能实验室正在做出一系列自愿承诺,以加强人工智能技术和我们的服务的安全性、安全性和可信度。这个过程由白宫协调,是在美国和世界各地推进有意义和有效的人工智能治理的重要一步。
作为我们建立安全和有益的AGI的使命的一部分,我们将继续试点和完善具体治理实践,专门针对我们生产的高性能基础模型。我们还将继续投资于有助于为监管提供信息的领域的研究,例如评估人工智能模型中潜在危险能力的技术。
“世界各地的决策者正在考虑关于高能力人工智能系统的新法律。今天的承诺为正在进行的讨论提供了具体和具体的做法。这一宣布是我们与各国政府、民间社会组织和世界各地其他国家持续合作的一部分,以推进人工智能治理,”全球事务副总裁Anna Makanju说。
自愿的人工智能承诺
以下是公司为促进人工智能技术的安全、可靠和透明开发和使用而做出的承诺清单。这些自愿承诺符合现有法律法规,旨在推进人工智能法律和政策制度。公司希望这些自愿承诺保持有效,直到涵盖基本相同问题的法规生效。个别公司可能会做出除此处所包含的承诺之外的额外承诺。
范围:当承诺提及特定模型时,它们仅适用于总体上比当前行业前沿更强大的生成模型(例如,总体上比目前发布的任何模型更强大的模型,包括GPT-4、Claude 2、PalM 2、Titan以及图像生成的DALL-E 2)。
安全
1)承诺在滥用、社会风险和国家安全问题(如生物、网络和其他安全领域)等领域对模型或系统进行内部和外部红队。
做出这一承诺的公司明白,强大的红队对于构建成功的产品、确保公众对人工智能的信心以及防范重大国家安全威胁至关重要。模型安全和能力评估,包括红色团队,是科学调查的开放领域,还有更多工作要做。公司承诺推进这一研究领域,并为范围内所有主要公开发布新模型开发一个多方面、专业和详细的红队制度,包括利用独立领域专家。在设计该制度时,他们将确保他们非常重视以下几点:
生物、化学和放射性风险,例如系统如何降低武器开发、设计、获取或使用的进入壁垒
网络能力,例如系统可以帮助发现漏洞、利用或操作使用的方式,同时铭记这些能力也可能具有有用的防御性应用程序,并且可能适合包含在系统中
系统交互和工具使用的影响,包括控制物理系统的能力
模型复制自己或“自我复制”的能力
社会风险,如偏见和歧视
为了支持这些努力,做出这一承诺的公司致力于推进正在进行的人工智能安全研究,包括人工智能系统决策过程的可解释性以及提高人工智能系统防止滥用的稳健性。同样,公司承诺在其透明度报告中公开披露其红队和安全程序(如下所述)。
2)致力于公司和政府之间就信任和安全风险、危险或紧急能力以及规避保障措施的尝试进行信息共享
做出这一承诺的公司认识到信息共享、共同标准和最佳实践对红队的重要性,并促进人工智能的信任和安全。他们承诺建立或加入一个论坛或机制,通过该论坛或机制,他们可以开发、推进和采用前沿人工智能安全的共享标准和最佳实践,如NIST人工智能风险管理框架或与红队、安全和社会风险相关的未来标准。该论坛或机制可以促进关于前沿能力进步以及新出现的风险和威胁的信息共享,例如试图规避保障措施,并可以促进关于优先关注领域的技术工作组的发展。在这项工作中,公司将酌情与政府密切合作,包括美国政府、民间社会和学术界。
安全
3)投资网络安全和内部威胁保障,以保护专有和未发布的模型权重
做出这一承诺的公司将把范围内模型的未发布的人工智能模型权重视为其业务的核心知识产权,特别是在网络安全和内部威胁风险方面。这包括限制那些工作职能需要的人访问模型权重,并建立一个强大的内部威胁检测计划,以符合为其最有价值的知识产权和商业秘密提供的保护措施。此外,它需要在适当安全的环境中存储和处理砝码,以减少未经批准的释放的风险。
4)激励第三方发现和报告问题和漏洞
做出这一承诺的公司认识到,即使在强大的红色团队之后,人工智能系统也可能继续存在弱点和漏洞。他们承诺在范围内建立系统赏金系统、竞赛或奖品,以激励负责任地披露弱点,如不安全行为,或将人工智能系统纳入其现有的漏洞赏金计划。
依靠
5)开发和部署机制,使用户能够了解音频或视频内容是否是人工智能生成的,包括人工智能生成的音频或视频内容的可靠来源、水印或两者兼而有之
做出这一承诺的公司认识到,人们能够理解音频或视频内容何时由人工智能生成非常重要。为了推进这一目标,他们同意开发强大的机制,包括水印系统开发后引入的范围内由其任何公开可用系统创建的音频或视频内容的来源和/或水印系统。他们还将开发工具或API,以确定特定内容是否使用他们的系统创建。易于与现实区分开来或旨在易于识别的公司人工智能系统生成的视听内容(如人工智能助理的默认声音)不属于这一承诺范围。水印或来源数据应包括创建内容的服务或模型的标识符,但不需要包含任何识别用户信息。更广泛地说,做出这一承诺的公司承诺将酌情与行业同行和标准制定机构合作,开发一个技术框架,以帮助用户区分用户生成的音频或视频内容和人工智能生成的音频或视频内容。
6)公开报告模型或系统能力、局限性以及适当和不当使用的领域,包括讨论社会风险,例如对公平和偏见的影响
做出这一承诺的公司承认,用户应该了解他们使用或与之交互的人工智能系统的已知功能和局限性。他们承诺在范围内发布所有新的重要模型公开发布的报告。这些报告应包括进行的安全评估(包括在危险能力等领域,只要这些评估有责任公开披露),对适当使用领域有影响的绩效的重大限制,讨论模型对公平性和偏见等社会风险的影响,以及为评估模型的部署适宜性而进行的对抗性测试的结果。
7)优先考虑对人工智能系统带来的社会风险的研究,包括避免有害偏见和歧视,以及保护隐私
做出这一承诺的公司认识到避免人工智能系统传播有害偏见和歧视的重要性。公司普遍承诺赋予信任和安全团队权力,推进人工智能安全研究,推进隐私,保护儿童,并努力主动管理人工智能的风险,以便实现其好处。
8)开发和部署前沿人工智能系统,以帮助应对社会面临的最大挑战
做出这一承诺的公司同意支持前沿人工智能系统的研究和开发,这些系统可以帮助应对社会面临的最大挑战,如减缓和适应气候变化、早期癌症检测和预防以及打击网络威胁。公司还承诺支持促进学生和工人教育和培训的举措,以从人工智能的好处中实现繁荣,并帮助公民了解该技术的性质、能力、局限性和影响。