前言
随着AI模型的能力日益更加强大,如何让其行为和目的跟人类的价值、偏好、伦理原则、真实意图之间实现协调一致,这个被称为人机价值对齐的问题变得越来越重要。价值对齐对于确保人类与人工智能协作过程中的信任与安全至关重要,已经成为AI治理领域的一项关键任务,是大模型实现稳健发展和提升竞争力的必由之路。业界和研究界积极探索实现大模型价值对齐的多种措施,包括人类反馈强化学习、可扩展监督方法、训练数据干预、可解释AI方法、对抗测试、治理措施等等。
TIME杂志将美国AI公司anthropic开发的AI价值对齐技术“原则型AI”(constitutional AI)评选为2023年三大AI创新之一(另外两个分别为多模态AI、文生视频技术),这足以表明价值对齐已然成为AI领域的核心方向,其重要性正越来越被认识到。实际上,在大模型加速发展引发关于有效加速(e/acc)还是有效对齐(e/a)的AI技术发展理念之争的背景下,人们需要更加负责任地发展应用人工智能技术,而关于价值对齐的技术和治理探索将推动负责任AI走向深入,确保人类与人工智能(包括未来的AGI)和谐共生、有效协作的美好未来。
大模型安全作为一个新兴的安全领域,多家头部企业、安全团队均在积极探索潜在安全问题及风险收敛的解决方案。然而,目前行业内还未形成成熟完善的解决方案,仍处于探索阶段。为此,我们围绕大模型生产研发流程设计了大模型安全框架,从全局视角剖析大模型生产应用全生命中后期存在的安全风险问题,为大模型的研发及应用提供安全指导,致力于构建安全、可靠、稳定、可信的大模型应用。
下载当前版本: 完整报告链接获取,可以扫描下方二维码免费领取👇👇👇