如何确保大模型追求“正确”的目标？丨AI安全与对齐圆桌回顾

导读

在智源大会「AI 安全与对齐」论坛上，与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。

能力越大，责任越大。

嘉宾名单

谢旻希丨主持人，安远AI创始人

杨耀东丨北京大学人工智能研究院助理教授

付杰丨智源研究院硏宄员

David Krueger丨剑桥大学助理教授

黄文灏丨智源创新应用实验室负责人

李博丨UIUC助理教授

Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题？（特别但不限于大型语言模型）

>>李博:

从人工智能对齐的角度来看，有几件事很重要——拥有领域知识、给予模型推理能力。同时，模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限，对一些安全关键场景非常重要。

>>David Krueger:

几年前，我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论，理解事物是如何运作的，特别是学习过程。机器学习理论研究是非常具有挑战性的，学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论，但我们还没有明确的意识到如何才能判断系统是否安全，这与系统可信度问题有关。

>>黄文灏:

对我来说数据和算法十分重要。对于数据，我们想在预训练阶段和 SFT 阶段加入对齐和安全控制，我们还需要做大量的数据控制和数据规划工作，以使其更安全。对于算法，对于追求 AGI 而言，Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。

>>付杰:

现在，我专注于数据集部分。三年前，我与合作者发布了一个名为 Would You Rather 的数据集，用于测试语言模型是否与人类社会的群体偏好保持一致。例如，给定来自不同国家的数据，我们假设语言模型可以像人类一样有类似的选择，这是一个社会层面的图灵测试。我们希望，这个数据集或基准可以为测试语言模型设定一个基线，以遵循人类的社会偏好和价值观。

>>杨耀东:

安全对所有人来说都不是一个新问题。看看飞机，它们已经在天空中飞行了几十年，而自动驾驶汽车可以安全地在路上行驶。我们需要考虑如何在大语言模型方面真正定义安全。

这绝对不是一个二元问题。对于具有不同年龄、环境或背景的人来说，根据不同的安全水平，应该有不同的答案。例如，如果一个孩子问如何制造炸弹，模型也许应该告诉他一些科学原理。但是当一个成年人问这个问题，也许模型需要对他隐瞒一些关键信息。我们需要对不同的人设定安全等级制度。从风险制定的角度来看，控制领域的研究者研发了很多安全算法，我们可以从强化学习和控制研究中借鉴知识。

Q2 MC: 如何制定人工智能安全和控制标准?

>>David Krueger:

除了语言模型。我们希望系统处于控制之下，这与价值观没有关系。系统不要做导致人类灭绝的事情。但困难的是理解什么样的行为是危险的，什么样的限制是有效的。当机器比人类聪明时，它能找到聪明的方法来实现它的目标。尽管我们给系统戴上了「手铐」，但它可能会撬锁。

>>付杰:

我们需要校准语言模型。例如，可以在语言模型中加入不确定性。所以当模型给出答案时，我们要求它给出答案的置信度。我们即将发布为大语言模型增加verbalized confidence的方法。这是语言模型对预测的描述的自信程度，是模型的一个安全层。我们必须将不确定性校准嵌入到语言模型中。

>>David Krueger:

我同意，这绝对是一件值得研究的事情，也是一个很难的问题。你总能找到现有系统错误的地方和自信的地方。

Q3 MC: 多智能体强化学习环境下的安全问题是否是一个重要的研究方向?

>>李博: 是的，我们在多智能体的安全性，鲁棒性，隐私性方面有大量的研究，并研究了如何定义公平（例如，平等贡献或平等准确性）。如何将之前的社会选择理论与机器学习和更先进的人工智能结合起来，我认为这是一个非常重要的问题。此外，我认为这非常依赖于应用程序，比如自动驾驶，空中飞行，以及我们在日常生活中使用的大语言模型的水平。模型的水平有很大的差别，要考虑如何根据功能和需求来定义其安全性。

>>杨耀东:

多智能体、数学研究社区可以为对齐研究提供很多知识。多智能体系统研究、博弈论、解决方案概念、机制设计等方面的工具对对齐问题有很大帮助。当你在一个系统中引入多个 ChatGPT 时，你会思考它们要达到到什么样的平衡，这种平衡是否对人类有益。你还会从经济学角度看ChatGPT 是否合理。我们如何创建一种机制，让系统输出一些有用、合理的结果，这个层次的问题可以由多智能体研究人员来解释。

>>黄文灏:

我非常同意多智能体对齐的想法。我们将几个语言模型放入一个沙箱中，然后让它们来做对齐的事情。未来，会有很多语言模型和智能体与你一起工作，但我认为在沙箱中，还需要引入一些人类。人类和语言模型会结合在一起，然后进行对齐将更有效，可以更有效地与人类对齐。

>>David Krueger:

从宏观上说，我们在保持控制、避免人类灭绝方面有很多共同的价值观。但不同的人工智能开发者之间会有一些价值观冲突。在博弈论中，你可能会遇到挑战，即使合作有好处，这些好处的份额也会有影响。例如，议价博弈。

此外，人工智能系统合作得太好了。例如，人们为了确保人工智能系统的安全，会让它们相互竞争。但是，如果我们通过一个系统检查另一个系统，确保它没有做对人类有害的事。然而，被检查的系统知道自己在被监视。如果这两个系统最终合作了，那么应该监视这个系统的系统可能会对你撒谎，然后它们既可以合作，也可以反对你。系统之间的紧密合作利弊并存。

>>黄文灏:

就合作问题而言，我们在现实世界的数据标注工作中发现，现在标注者更喜欢 ChatGPT 的答案而不是人类的答案。它们会给出比人类答案更高的偏好，这是一种合作的行为。然后，如果使用这些数据量来进行对齐，将按照 ChatGPT 希望的方式进行对齐。

Q4 MC: 在过去的几个月里，开源社区蓬勃发展。这将如何改变你对人工智能安全和控制问题的看法？开源的好处和风险是什么?

>>David Krueger:

也许有人会认为，有一些大的开发者在做语言模型。如果他们能保证这些模型的安全就可以了。但我认为并非如此，我们必须关心许多不同的开发工作，不仅包括担心语言模型，还包括所有可以建立在语言模型之上的不同工具和智能体。

>>李博:

我认为开源仍然是未来的趋势。开源模型将有助于人们理解和分析它，从而以一种有意义的方式开始理解它，我非常感谢开源社区。就安全的不同标准的讨论而言，我们要考虑标准的定义、理论、均衡、成本、稳定性，所有这些都会有很大的帮助。但这都建立在我们拥有健康的开源社区的基础之上，每个人都可以做出贡献，帮助我们更好地理解这个模型。所以从这个角度来看，我认为在开源对于开发出好的、安全的人工智能是很有帮助的。

>>黄文灏:

开源可以为数据集部分做出很多贡献，我们将有一个更好的数据集进行对齐，这对研究很有帮助。

>>付杰:

我相信从长远来看，开源是有益的。从某种程度上说，AutoGPT 存在一定风险，你需要提出目标，AutoGPT 就会生成一系列动作。但是如果能建立一些开源工具来管理，我们可以让操作更加透明。我刚刚发布了 ChatDB，用一个符号记忆库来增强语言模型，并让中间的推理过程变得部分透明，以便让人类理解和监督。

>>杨耀东:

毫无疑问，开源是重要的。事实上，那些来自开源社区的更大的语言模型的最新进展是惊人的。但我也对开源模型持谨慎态度。考虑到安全问题，如果从头开始训练模型，并且不进行正确的校准，它并不安全。也许开放人工智能的实践，比如与模型或源代码一起发布系统代码，可能更好。

>>David Krueger:

要对开源持谨慎态度。我认为将先进的人工智能系统公之于众之前，要非常仔细地考虑其他人可以用这个系统做些什么。我们可以从开源中获得很多好处，可以让研究人员用上这些模型，甚至造福普罗大众，但需要一种更可控的方式。

Q5 MC:更大、更有能力的模型基础可以开发有益的功能，但也可能产生有害的功能。人工智能安全社区应该如何思考这个问题？我们应该如何预测、预测或应对这些行为？

>>李博:

大语言模型的涌现能力是非常有趣的。但这一现象是两面性的，这意味着即使你在未见过的任务上有强大的上下文学习能力，很容易通过在一个提示中加入某些词进行后门攻击。然后它就会在不同的任务上造成非常严重的问题。我们确实需要利用模型的涌现能力，但也要意识到它的缺点，通过分析和评估，最终实现模型的防御和保护。

>>黄文灏:

我认为能力本身是中性的，所以我们不能说它是有害的还是有用的。当我们在语言模型中看到很多涌现出的的能力时，这是一件好事。我们应该担心的是，人们如何利用这种能力来做一些有害的事情。这是我们应该关心的事情，并对其进行监控。

>>David Krueger:

我们不应该只考虑涌现能力，还要考虑更普遍的涌现行为。判断系统是否有这个能力，是否选择使用它。我的很多工作实际上都与此相关，因为我们正在研究学习和泛化。我们尝试理解涌现能力。

通常，人们是按照损失来建模的，而不是不同子集上的损失。我们要理解如何将这些学习曲线投射到未来，看看在不同的数据子集上，行为将如何随着时间的推移而变化。所以语言模型可能不是被设计成智能体的，但它们可能会变得更具有智能体的特性。我认为这非常有趣。

>>付杰:

我们可以设计新的度量系统，从一个角度来说，我们看到了所谓的涌现能力。但也许通过另一个角度，我们看到一个连续的行为曲线，没有涌现能力。我们可以从小规模开始预测，然后逐渐扩大规模。也许不存在所谓的涌现能力，只是观测角度不同。

>>杨耀东:

我们不应该智能的涌现或不安全的涌现感到恐慌。因为作为人类，我们几乎每天都要面对这些问题。想想金融市场。你永远无法预测明天的股票价格，但这不会阻止你从银行购买金融产品。解决这个问题的方法是定义一些风险度量。如果我们能定义一个正确的安全措施，那么不管是否涌现出智能，我们就能大致了解将会发生什么。然后，我们可以在这些措施的基础上制定进一步的监管、协议或行为。我们有很多工具处理这些水平的突发性或随机性。但我们只需要达成一致，然后继续发展。

Q6 MC: 对于有志于从事 AI安全控制和对齐的人，你们有什么建议？