Stuart Russell对话姚期智：为全人类设计AI系统，可以借鉴墨子「兼爱」思想丨2023智源大会AI安全与对齐论坛...

导读

在2023智源大会「AI安全与对齐论坛」的对话环节，加州大学伯克利分校教授Stuart Russell与图灵奖得主、中国科学院院士姚期智针对「如何设计对人类有益的AI」、「如何管控AI技术」，以及「LLM内在目标与意识」等话题进行了深度探讨，其中Stuart Russell教授在对话中提到了春秋战国时代墨子的“兼爱”思想，即做出道德决定应该充分考虑每位个体的利益。

Stuart Russell

加州伯克利分校教授，ACM Fellow、AAAI Fellow、AAAS Fellow。1995年荣获IJCAI Computers and Thought Award。他与Google研究总监Peter Norvig合著的《人工智能：一种现代的方法》是人工智能权威教材。2020年，他的新书《AI新生：破解人机共存密码——人类最后一个大问题》（Human Compatible：Artificial intelligence and The problem of control）在中国出版。

姚期智

世界著名计算机科学家，2000年图灵奖得主，2021年京都奖得主。中国科学院院士，美国科学院外籍院士，美国科学与艺术学院外籍院士，清华大学交叉信息研究院院长，清华学堂计算机科学实验班（姚班）首席教授，香港中文大学博文讲座教授。

以下为对话视频与全文：

如何设计对人类有益的AI，可以借鉴「墨子思想」

姚期智：你提出让通用人工智能（Artificial General Intelligence，AGI）更加安全的建议，如何实现这个想法？人和机器是不同物种，除非我们对自己非常了解，否则很难把控人机互动。而人类的想法不尽相同，如何防止人类制造过于强大的机器？我们是否该为了个人利益而牺牲其他人的利益？

机器可能试图改变人类的行为。如何协调人类的思想？我们想要什么？理想的世界应该是怎样的？我们并不一定有好好思考过这个问题。实际上，机器就像是无害的物种，只要人类提出要求，机器可以做任何事，因此最重要的是要明确人类的需求是什么。

Stuart Russell：我赞同你的说法。事实上，我们很难明确表达我们的目标。比如，虽然现在我们可以使用强化学习来训练，但是我们仍未表达出我们的目标。因此，模型也并没有学到何为目标。人类对未来有以下简单的偏好，假设有两部风格不同的电影A和B，人类可能会有明显的偏向性，更喜欢A或者更喜欢B。人类会对未来有一个隐性的选择偏好，有着自己的计算和内省能力。

事实上，我们在事件发生前就做好决定，或者有潜力去这样做。那么我们需要面对的问题是，机器是为单独的个体工作还是为了全人类而工作。我们可以从最简单的博弈游戏假设开始，只有一个人和一台机器，进一步如果是一个人和多台机器，如何确保在帮助人类的同时，不同机器之间相互协作？如果是多个人和一台或多台机器，这需要引出道德哲学中的基本问题。

我们需要设计为全人类工作的 AI 系统。试想，如果一个AI系统能够响应个人意愿，那么AI系统在追求个人的利益时伤害他人利益，因为它的关注点只在个人利益而非其他人的利益。所以，我认为设计好的AI系统是默认为全人类而工作的。除非他们在做一些不会影响他人利益的行为，比如在我的花园里割草，因为这是我要求AI系统这么做的。但是如果是在报纸上刊登一篇文章，这样可能会影响其他人的利益。这时AI系统需要考虑到每一个利益可能受到影响的人。

这就回到了一个几千年来道德哲学家们遗留下来的问题：早在中国公元前500年，春秋战国时期的墨子就在讨论Universal Love（兼爱）的概念，意思是在做一个道德决定时应该考虑到每个人的利益，每个人的偏好都应该被平等的看待。这在18世纪西方哲学的功利主义中再次出现。我相信有一种方法是建立在所谓的偏好功利主义的复杂形式之上的，它可以合理地考虑到每个人的利益。但是，即使在正式的功利主义中，也有一些尚未解决的问题，例如，当一个决定会影响到实际存在的人数时，你如何做出决定？你想要一个不快乐的人口大国还是一个快乐的人口小国？对于这类问题，我们没有一个好的答案，但我们需要回答这些问题。这些道德哲学的核心问题，因为AI系统在未来可能会拥有这种能力，我们最好确保它们用对了方法。

姚期智：我同意你的观点，我们需要把个人的偏好和影响整个社会的事情区分开来。但我对后者有些悲观，因为这不是AI系统的问题，而是现代世界的问题，而且部分原因是生物技术或核能源等强大技术的出现。

我认为这是目前最严肃的问题，也就是我们需要去使用AGI来真正解决全人类的问题。但是目前仍有很多的问题，我认为在世界上的许多地方，社会是严重分裂为两个阵营的，双方都坚信自己是对的。现在有了AI系统来帮助做宣传，借助AI技术可以轻易写出一万封稿件并提交给报社，而这可能会影响一场严肃辩论中的力量平衡。

我们现在亟需解决这些问题，但我认为这似乎没有任何解决这些问题的希望。如果我们甚至不知道人类在这些紧迫问题上的偏好是什么——因为这些问题有时是生死攸关的问题，那么我们就不能假装它们不存在。请问你怎么看？

在许多地方，社会似乎一直在与之斗争。我认为在中国这种现象会少一些，但在其他很多国家和地区这种现象是很普遍的。人类有很多不同的目标，人类想要的东西有很多。我们该如何面对？如果我们不解决这个问题，我认为控制AGI的事情甚至都无法开始，因为这是人们首先想到的事情。

Stuart Russell：我确实认为18世纪功利主义的出现是人类进步的重要一步。在此之前，一个人做出公共决策是为了让他的国家的每个人都受益，这种想法是完全闻所未闻的。他做的决定是为了贵族、国王、皇帝等权贵，而普通人根本不重要。实际上，这种变化是我们现在在世界各国看到的非常普遍的事情，大多数组织良好的政府认为他们的工作是在增加国家人民的整体福祉。

目前国家内部对于幸福到底意味着什么仍然存在很大的争议，不仅仅是GDP，可能是各种类型的自由，也可能是一些群体对其他群体的特权等等。我认为功利主义中一些悬而未决的问题与目前这些问题直接相关。在功利主义中有一个简单的问题，对于所谓的虐待狂，你会怎么做？遇到一个从别人的痛苦中获取快乐的人，你应该把那个人的利益考虑在内吗？我认为是：不，你永远不应该为那些想从痛苦中获得快乐的人的利益而工作。

我举个简单的例子。在经济学中有一个“地位商品”的概念，意思是你看重的东西不是物品本身，而是因为它暗示着你比别人优越。比如你获得了诺贝尔奖。诺贝尔奖为什么有价值？因为你得到了一百万美元吗？不，是因为其他人都没有。这证明你比世界上几乎所有人都聪明。这就是我们所说的地位商品。从某种意义上说，地位商品的本质是零和博弈，不是每个人都能进入前1%。所以，如果你从属于那1%的人群中获得个人价值、骄傲和自尊，我们不可能把这种骄傲和自尊给予所有人。那么，AI系统在代表社会做决定时是否应该考虑到这些地位商品呢？如果我们说不，那将是我们社会运行方式的巨大变化。我认为社会内部的很多摩擦实际上都是由这些地位商品引起的，而这并不是每个人都能做到的。

与其构建AGI，不如构建解决特定问题的AI系统

姚期智：你提出了构建有益的AI系统以及关于重要AI系统的建议，即系统需要使用携带证明的编码。我们能否拟定出一些任务的白名单，这些任务不涉及机器是否具有人类的思想，而是积极的提升人类福祉的事情？例如，我们可能百分百支持使用AI技术来设计药物和解决癌症问题。我们是否能够找到一种可以利用AI系统去解决那些白名单上任务的方式？

我认为这和网络安全一样，在大部分大学里不会教学生如何入侵互联网。在我们弄清楚什么是全面、严谨和系统的方法之前，有可能以这种方式探索有益的AI技术吗？正如你所说，目前我们真的只是在实验阶段，不确定前面会出现什么巨大的困难。

Stuart Russell：我认为仍然有很长的路要走，了解如何制作AI系统，解决大规模“辅助博弈”问题，以及如何确保人类可以使用它们。K. Eric Drexler作为纳米技术的发起者之一，在过去的几年里一直致力于AI安全方面的研究。他也提出了类似的方式去建立任务白名单，称之为综合AI服务。他的观点是，与其构建AGI，不如构建解决特定问题的AI系统，比如蛋白质折叠、交通预测或其他任何问题。这些系统根本没有机构或行动范围，这可能不会带来大规模的风险。我认为在短期内这是一个非常合理的方法。

Sam Altman 谈到了AI系统试图优化农业，却犯了导致生态灾难的错误。如果AI系统能与数亿人交谈，并说服这数亿人对其他国家不那么友好，也能说服人们不那么关心气候变化。这样我们可能会被带入一场核战争或一场气候灾难，而没有意识到这是AI系统造成的。这可以简单地通过对话，从系统中发生，有一些我们无法检测到的内在目标，导致它把我们推向这个方向。

所以我认为目前已经发布的系统存在巨大的风险，人们已经非常担心故意滥用虚假信息的问题。这类系统像社交媒体算法一样，会把我们推向一个特定的方向，我们甚至没有意识到它正在改变公众的情绪，改变我们对他人、对未来的看法。这对我们来说是非常危险的。所以我不同意以下这种观点，即我们了解AI安全的唯一方法是在现实世界中部署数亿个系统的副本，然后看看会发生什么。我们不会对疫苗生产这么做，在使用疫苗前要严格测试以确保安全性，因为我们要把它注射到数亿人的体内。在AI社区，我们真的需要以一种完全不同的心态来思考我们正在做的事情。

势不可挡，人类如何管控AI

姚期智：从更乐观的角度来看，即使大型AI系统可能是一个我们无法控制的怪物，但我们有办法通过适当的协议来“驯服”它们。就像量子计算，我认为在AI领域，类似的协议可能在未来几年内很快问世。理论学家们已经发现有很多方法可以控制量子系统。有趣的是，量子机器可以在一个非常不同的空间里工作。目前人类并不能凭直觉很好地处理它。这与医学非常相似，我们可能不完全了解药物是如何在分子层面起作用的，但是我们可以进行一些测试。

你提到的这类事情给了我们希望，即使人类是一个非常弱小的种族，我们仍也许能够控制宇宙中不存在的东西。也许通过遵循你的建议，我们会看到这一领域的一些希望，能够真正使AI系统成为我们的仆人，我不知道这样的说法是否恰当。

Stuart Russell：我认为将会有一种类似管控核武器的管控方式来管控AI技术。如果一群人获得了核武器，他们可以威胁整个世界，并勒索我们实现他们的目标。如果这项技术比核武器更强大，我们可能需要以类似的方式来管控。但我认为现在需要更好地管控核武器。

在核武器真正被制造出来之前，第一个关于核弹的专利是1939年在法国申请的，然而原子弹是在1945年首次试验成功的。但实际上一些物理学家在20世纪10年代计算出这是可能的。所以在第一次世界大战期间，一些物理学家在谈论核战争的威胁。他们的观点是，在技术开发之前，我们需要有一个管控结构，以确保技术只用于人类利益，而不是以武器的形式使用。不幸的是，大部分物理学家，建制派和政府都不听他们的。如果他们听了，世界的历史可能会朝着一个完全不同的方向发展，也许是一个更好的方向。

在真正的AGI系统被创造出来之前，在出现严重的军备竞赛之前，我们现在有一个窗口期。我认为军备竞赛的概念是非常有害的，因为它导致缺乏合作，导致不信任，导致安全工作的失败。基于所有这些原因，我认为我们应该努力尽快建立起这些合作协议。Sam Altman正确地指出了我们可以同意分享AI安全技术，因为共享这些信息对每个国家都有好处。

大语言模型，内在目标与意识

姚期智：你对大语言模型（Large Language Models, LLMs）的评价是，它似乎没有明确的内部目标。人类锻炼和展示智力的方式是否可能是对内在目标的意识，这是否只是一个特例，还是说物理世界中可能存在其他的智力。也许LLMs必须通过预训练建立一个模型，所以你说这就是图灵机的内部状态，但这也许就是未来智能的样子。

Stuart Russell：我认为AGI必须满足一些限制条件，它必须能够从相当少的数据中有效地学习。我认为宇宙中没有足够的数据来让一个缓慢且低效的学习算法实现AGI。它还必须能够根据长远目标选择行动，而不仅仅是目前的即时对话目标。

所以我认为LLM 可能确实有内部目标，并且这些目标指导了对输出的直接选择。但我不认为这个系统有超前思维，不认为它是在建立一个世界内部模型，即世界本身的状态。它有一种对话的状态，但它没有世界的内部状态。举一个有趣的例子，我有20美元，我给了我的朋友10美元。我有多少钱？LLM 给出的答案是30美元。所以它不明白，当我给了钱的时候，我就不再拥有它了。它缺少了一些基本的物理知识。

AI技术是一门科学，我们需要理解我们构建的结构与我们希望它们具有的属性之间的关系。这就像造飞机一样，飞机有物理形状和引擎等等。我们可以展示它是如何与我们想要的性质联系起来的，也就是如何保持在空中飞行。目前，特别是LLM 领域，还不是这样的科学，目前我们不知道它为什么有这些性质，以及不能把这些和模型内部发生了什么联系起来。所以我认为从这个意义上说，AI技术应该是一门更深入的科学。