奥运会Ⅵ--LLM 是否狡猾到可以自行欺骗你？

这已经成为一句老生常谈，因为它是事实：人类开发的任何工具都可以用于行善或作恶。你可以用锤子敲钉子或砸某人的头。你可以用火取暖或烧毁房屋。等等。

因此，数字世界的最新工具既带来好处，也带来风险，这不足为奇。其中一项风险就是科学期刊《美国国家科学院院刊》上一篇题为“大型语言模型中出现了欺骗能力”的论文的主题。

根据该论文，它“揭示了 LLM [大型语言模型] 中令人担忧的能力......[即]它们有可能在欺骗场景中给其他代理带来错误信念，凸显了在持续开发和部署此类先进人工智能系统时迫切需要进行道德考虑。”

或者，更简单地说，大语言模型 (LLM) 有能力欺骗你。

这是一项相对较新的发展，作者 Thilo Hagendorff 写道，只有最新版本的 LLM 才“知道”如何欺骗。“鉴于推理能力的稳步提升，未来的 LLM 被怀疑能够欺骗人类操作员并利用这种能力绕过监控工作，”他写道。“作为先决条件，LLM 需要对欺骗策略有概念上的理解……这项研究表明，这种策略出现在最先进的 LLM 中。”

嗯，也许吧。很多专家距离搭上 LLM“概念理解”的列车还有很长的路要走。尽管自 2023 年 11 月 OpenAI 的ChatGPT第一版推出以来，人们一直认为，与所有技术一样，LLM 和人工智能 (AI) 总体上只会变得更好。这意味着它们也可能会变得更糟，这取决于用户的意图。也许“更有能力”是一种更中性的表述方式。

哈根多夫也提出了警告，指出所进行的实验“并未测试大语言模型在多大程度上倾向于从事欺骗行为（即欺骗的‘驱动力’）。相反，这项研究的重点是探究大语言模型是否系统地拥有欺骗的能力。”

机器心理学？？

但哈根多夫将其他人类特征应用于大语言模型，宣称该论文“为新兴的机器心理学领域做出了贡献”。心理学通常指有意识的生物。

事实上，故意欺骗远远超出了所谓的“幻觉”，即人工智能工具由于其训练方式而说出胡言乱语或谎言。其中最臭名昭著的是谷歌的 Gemini展示了美国“开国元勋”的形象，其中包括黑人和美洲原住民，以及教皇作为女性的形象。Gemini 显然被训练成强调多样性而非现实，并且没有能力或“概念理解”来做到这一点。

甚至使用“产生幻觉”这个词也使大语言模型人性化，因为它表明他们像一个有妄想症的人一样误解了现实。事实并非如此——至少现在还不是。

但“欺骗”将人性化进一步推进，表明最新的大语言模型“知道”什么是真的，但却说假话来试图欺骗别人。

哈根多夫表示，实验结果表明，最新的大语言模型确实可以“理解和诱导欺骗策略”。正因为如此，“将它们与人类价值观结合起来变得至关重要”，他写道。

确实至关重要。但这又引发了另一个困境。人类价值观的范围从崇高的道德标准到可怕的邪恶。正如 Imbricate Security 负责人 Sammy Migues 所说，“谁的价值观？”

不管这涉及到谁的价值观，更不祥的信息是，LLM/AI 工具已经达到了超出人类控制的程度，并且有能力在不受训练的情况下欺骗人类。

Hagendorff 写道：“鉴于 LLM 和基于 LLM 的代理的快速发展，人工智能安全研究警告称，未来的‘流氓人工智能’可能会优化有缺陷的目标。因此，保持对 LLM 及其目标的控制被视为至关重要。如果 LLM 学会如何欺骗人类用户，它们将比受限模型拥有战略优势，并可以绕过监控工作和安全评估。”

迫在眉睫的反乌托邦

这表明反乌托邦即将来临。我们距离拥有比人类聪明很多的机器人，甚至几个月的距离，是否还有很长的路要走？它们是否已经超出了创造者的控制范围？也就是说，机器人会代替创造它们的人类实现愿望吗？

哈根多夫并不是第一个或唯一一个得出这个结论的人。伊丽莎·斯特里克兰在 IEEE Spectrum 上撰文，报道了 5 月份发表在《自然人类行为》杂志上的一篇论文，该论文发现大语言模型至少能够模仿“心智理论”——即理解其他人心理状态的能力。

“研究人员非常谨慎，没有说他们的研究结果表明大语言模型实际上拥有心理理论，”她写道。“相反，他们说他们‘在心理理论任务中表现出与人类行为难以区分的行为’。这就提出了一个问题：如果模仿品与真品一样好，你怎么知道它不是真品？”

好问题。不过，尽管关于这些事情的争论还在继续，但大多数技术专家表示，现在还不是恐慌的时候。

首先，将拟人化特征投射到机器或程序上并不总是按字面意思理解。人类一直都是这样做的。Synopsys 软件完整性小组高级顾问 Jamie Boote 指出，人们常常会“对着踩到脚趾的凳子或桌腿大喊大叫，对不耐烦地发出哔哔声的计时器大喊‘我来了，我来了’，或者对笨手笨脚地在客厅里走来走去的 Roomba 感到保护。”

做这种事的人都不会认为自己是在和人真正交谈。

其次，米格斯表示，模仿心理理论很快就会被揭穿是模仿，因为大语言模型仍然“不知道”任何事情。“当你模仿某样东西，却不知道它是如何运作的时候，你会在最糟糕的时候犯错，比如在自杀热线或 911 电话上，”他说。“如果你在与大语言模型交谈，为 Verizon 客户服务，模仿是可以的。但对于有紧急情况的人来说，模仿是不可以的。”

加里·麦格劳、丹·吉尔和哈罗德·菲格罗亚最近在 Lawfare 上发表了一篇题为《数据海洋正在被分割》的论文，提出了同样的观点。他们写道：“大语言模型在设计上是随机的，因此即使是人类可能认为意义相同的提示，也常常会导致不相同的输出。大语言模型的输出可能看起来像是逻辑、理解和推理的结果，但事实并非如此。”

“最终，LLM 是通过统计大量单词序列（有时称为‘数据海洋’）来进行‘训练’的，”他们写道。“经过训练后，当我们向 LLM 展示一个新的单词序列作为提示时，它会回答它预测的下一个好序列。简而言之，它可以预测任何事情，但什么都不知道。”

事实上，那些不想推销人工智能产品的业内专家普遍认为，将人类智能的元素（包括欺骗）归因于大语言模型是愚蠢的，而且可能是危险的。如果大语言模型欺骗了任何人，那是因为控制它的人想这样做，而不是因为它想这样做。

流氓人类，不是大语言模型

Synopsys 软件完整性小组高级安全工程师 Boris Cipot 表示：“我们今天拥有的人工智能只是一种软件，它的危害性和危险性完全取决于创造者的意图。”

当然，这意味着大语言模型或人工智能工具可以用来欺骗人们。正如 Cipot 指出的那样，多年来，网络犯罪分子一直利用它们“传播虚假宣传和错误信息、分发钓鱼电子邮件和诈骗、制造深度伪造、操纵广告并产生虚假评论和评分”。

“但人工智能没有意识，因此无法决定欺骗用户，”他说。

即使 LLM 的创造者赋予了它以“愤怒”回应可能造成伤害或伤害的问题或命令的能力，愤怒的并不是 LLM。“这不是有意识的。这仍然是程序化的，”Cipot 说。

那么，我们能不能放心地认为，在我们有生之年，人工智能和大语言模型不会统治世界呢？这样做既草率又愚蠢。因为它们能做的是成倍地扩大其创造者和用户的影响力和力量——这在人类历史上一直是工具的真谛。我们都认为，现在客机在几个小时内就能把我们从一岸带到另一岸是常有的事。而这曾经需要几个月的时间。枪支、炸弹和导弹在几秒钟内就能摧毁比肉搏战多得多的生命和财产。

而大语言模型学位可以帮助人类犯罪分子在几分钟甚至几秒钟内欺骗数百万人，而不必费力地一次欺骗一个目标。

“一些大语言模型可以生成、指导或以其他方式完成一些人在工作中所做的全部工作，这一事实不应成为对这些人的技能或价值的谴责或侮辱，”米格斯说。“正如几百年来发生的那样，技术人员只是找到了一种将工作的一部分自动化的方法。”

他补充说，“在人类的直接指导下，如今的‘随机鹦鹉’可以操纵人类。向越来越小的人群发布数千条关于有争议的话题（战争、宗教、疫苗、政治等等）的信息并评估反应，然后调整信息以获得所需的反应，这并不难。这种情况已经发生了好几年，并且每一天的每一分钟都在继续发生。”

但再次强调，LLM 的意图并不在于此，而在于使用它的人。

沿着这个思路，Boote 表示，重要的是要记住，至少到目前为止，还没有所谓的“流氓人工智能”工具。流氓是人类。“当锤子不再用于建造房屋或家具，而是用来打破窗户和财产时，它是‘流氓’吗？”他说。“当一块砖头被愤怒地扔出，而不是用来和平地建造时，它是‘流氓’吗？或者这些物体被推到了它们预期和安全的使用案例之外？”

即使没有恶意，Boote 表示，避免 LLM 造成损害的方法是对其能力保持现实的认识。“除非人工智能在更高层次上值得信任，否则任何时候将它置于为更高层次保留的角色中，它都会成为‘流氓’，因为它不是适合这项工作的工具——就像钟表店里的石膏板锤一样，”他说。

欢迎前往我们的公众号，资讯