【深度学习】主要提出者【Hinton】中国大会最新演讲【通往智能的两种道路】

「但我已经老了，我所希望的是像你们这样的年轻有为的研究人员，去想出我们如何能够拥有这些超级智能，使我们的生活变得更好，而不是被它们控制。」

6 月 10 日，在 2023 北京智源大会的闭幕式演讲中，在谈到如何防止超级智能欺骗、控制人类的话题时，今年 75 岁的图灵奖得主 Geoffrey Hinton 不无感慨地说道。

在这里插入图片描述

Hinton 本次的演讲题目为「通往智能的两种道路」（Two Paths to Intelligence），即以数字形式执行的不朽计算和依赖于硬件的可朽计算，它们的代表分别是数字计算机和人类大脑。演讲最后，他重点谈到了大型语言模型（LLM）为他带来的对超级智能威胁的担忧，对于这个涉及人类文明未来的主题，他非常直白地展现了自己的悲观态度。

演讲一开始，Hinton 便宣称，超级智能（superintelligence）诞生的时间可能会比他曾经想象的早得多。这一观察引出了两大问题：（1）人工神经网络的智能水平将会很快超越真实神经网络吗？（2）人类是否能保证对超级 AI 的控制？在大会演讲中，他详细讨论了第一个问题；针对第二个问题，Hinton 在演讲的最后表示：超级智能可能将很快到来。

首先，让我们来看看传统的计算方式。计算机的设计原则是要能精准地执行指令，也就是说如果我们在不同的硬件上运行相同的程序（不管是不是神经网络），那么效果应该是一样的。这就意味着程序中包含的知识（如神经网络的权重）是不朽的，与具体的硬件没有关系。

为了实现知识的不朽，我们的做法是以高功率运行晶体管，使其能以数字化（digital）的方式可靠运行。但这样做的同时，我们就相当于抛弃了硬件其它一些性质，比如丰富的模拟性（analog）和高度的可变性。

传统计算机之所以采用那样的设计模式，是因为传统计算运行的程序都是人类编写的。现在随着机器学习技术的发展，计算机有了另一种获取程序和任务目标的方法：基于样本的学习。

这种新范式让我们可以放弃之前计算机系统设计的一项最基本原则，即软件设计与硬件分离；转而进行软件与硬件的协同设计。

软硬件分离设计的优点是能将同一程序运行在许多不同的硬件上，同时我们在设计程序时也能只看软件，不管硬件 —— 这也是计算机科学系与电子工程系能够分开设立的原因。

而对于软硬件协同设计，Hinton 提出了一个新概念：Mortal Computation。对应于前面提到不朽形式的软件，我们这里将其译为「可朽计算」。

可朽计算是什么？

可朽计算放弃了可在不同硬件上运行同一软件的不朽性，转而采纳了新的设计思路：知识与硬件的具体物理细节密不可分。这种新思路自然也有优有劣。其中主要的优势包括节省能源和低硬件成本。

在节能方面可以参考人脑，人脑就是一种典型的可朽计算装置。虽然人脑中也依然有一个比特的数字计算，即神经元要么发射要么不发射，但整体来说，人脑的绝大多数计算都是模拟计算，功耗非常低。

可朽计算也可以使用更低成本的硬件。相较于现如今以二维模式高精度生产的处理器，可朽计算的硬件能以三维模式「生长」出来，因为我们不需要明确知道硬件的连接方式以及每个部件的确切功能。很显然，为了实现计算硬件的「生长」，我们需要很多新型纳米技术或对生物神经元进行基因改造的能力。改造生物神经元的方法可能更容易实现，因为我们已经知道生物神经元大致能够完成我们想要的任务。

为了展示模拟计算的高效能力，Hinton 给出了一个示例：计算一个神经活动向量与一个权重矩阵的积（神经网络的大部分工作都是此类计算）。

对于该任务，当前计算机的做法是使用高功耗的晶体管将数值表示成数字化的比特形式，然后执行 O (n²) 数字运算将两个 n 比特的数值相乘。虽然这只是计算机上的单个运算，但却是 n² 个比特的运算。

而如果使用模拟计算呢？我们可以将神经活动视为电压，将权重视为电导；那么每一单位时间里，电压乘以电导可得到电荷，电荷可以叠加。这种工作方式的能效会高很多，而且其实现在已经存在这样工作的芯片了。但很不幸，Hinton 表示，现在人们还是要使用非常昂贵的转换器将模拟形式的结果转换成数字形式。他希望以后我们能在模拟领域完成整个计算过程。

可朽计算也面临着一些问题，其中最主要的是难以保证结果的一致性，即在不同硬件上的计算结果可能会有所差别。另外，在反向传播不可用的情况下，我们还需要找到新方法。

可朽计算面临的问题：反向传播不可用

在特定硬件上执行可朽计算的学习时，就需要让程序学习利用该硬件的特定模拟属性，但它们无需知道这些属性究竟是什么。举个例子，它们无需知道究竟神经元的内部连接方式究竟是怎样的，该神经元的输入和输出又是通过什么函数关联起来的。

这意味着我们不能使用反向传播算法来获取梯度，因为反向传播需要一个确切的前向传播模型。

那么既然可朽计算不能使用反向传播，我们又该怎么做呢？下面来看看在模拟硬件上执行的一个简单学习过程，其中用到的方法称为权重扰动。

首先，为网络中的每个权重生成一个随机向量，该向量由随机的小扰动构成。然后，基于一个或少量样本，测量全局目标函数在使用这个扰动向量后的变化情况。最后，根据目标函数的提升情况，将该扰动向量带来的效果按比例尺度永久化到权重之中。

这个算法的优点是其大致上的行为模式与反向传播一致，同样遵循梯度。但问题是它具有非常高的方差。因此，当网络规模增大时，在权重空间中选择随机移动方向时所产生的噪声会很大，让这个方法难以为继。这就意味着这种方法仅适用于小型网络，不适用于大型网络。

另一种方法是活动扰动，虽然它也存在类似的问题，但也能更好地用于更大型的网络。

活动扰动方法是要用随机向量对每个神经元的整体输入执行扰动，然后在一小批样本下观察目标函数的变化情况，再计算如何改变该神经元的权重以遵循梯度。

与权重扰动相比，活动扰动的噪声要小得多。并且这种方法已经足以学习 MNIST 这样的简单任务。如果你使用非常小的学习率，那么它的行为就与反向传播完全一样，但速度要慢得多。而如果学习率较大，那么噪声会很多，但也足够应对 MNIST 这样的任务。

但是如果我们的网络规模还要更大呢？Hinton 提到了两种方法。

第一种方法是使用巨量目标函数，也就是说不使用单个函数来定义大型神经网络的目标，而是使用大量函数来定义网络中不同神经元集团的局部目标。

这样一来，大型神经网络就被化整为零，我们就能使用活动扰动来学习小型的多层神经网络。但问题来了：这些目标函数从何而来？

其中一种可能性是在不同层级的局部图块上使用无监督对比学习。其工作方式是这样的：一个局部图块有多个表示层级，在每个层级，该局部图块会尽力与同一图像的所有其它局部图块产生的平均表示保持一致；与此同时，还要尽力与其它图像在该层级的表示保持差异。

Hinton 表示该方法在实践中的表现很不错。大概的做法是让每个表示层级都具有多个隐藏层，这样可以进行非线性的操作。这些层级使用活动扰动来进行贪婪学习并且不会反向传播到更低层级。由于它不能像反向传播那样传递很多层，因此不会像反向传播那样强大。

实际上这正是 Hinton 团队近些年最重要的研究成果之一。

Mengye Ren 通过大量研究表明该方法是能够在神经网络中实际生效的，但操作起来却很复杂，实际效果也还赶不上反向传播。如果大型网络的深度更深，那么它与反向传播的差距还会更大。

Hinton 表示这个能利用模拟属性的学习算法只能说还算 OK，足以应对 MNIST 这样的任务，但也并不是真正好用，比如在 ImageNet 任务上的表现就不是很好。

可朽计算面临的问题：知识的传承

可朽计算面临的另一个主要问题是难以保证知识的传承。由于可朽计算与硬件高度相关，因此无法通过复制权重来复制知识，这就意味着当特定的硬件「死去」时，其学习到的知识也会一并消失。

Hinton 说解决该问题的最好方法是在硬件「死去」之前，将知识传递给学生。这类方法被称为知识蒸馏（knowledge distillation），这一概念是 Hinton 在 2015 年与 Oriol Vinyals 和 Jeff Dean 合著的论文《Distilling the Knowledge in a Neural Network》中最早提出的。

这一概念的基本思路很简单，就类似于教师教授学生知识：教师向学生展示不同输入的正确响应，学生尝试模仿教师的响应。

Hinton 使用了美国前总统特朗普发推文为例来进行直观的说明：特朗普发推时常常会对各种事件做出非常情绪化的回应，这会促使其追随者改变自己的「神经网络」，从而产生同样的情绪反应；这样一来，特朗普就将偏见蒸馏到了其追随者的头脑中，就像「邪教」——Hinton 很显然并不喜欢特朗普。

知识蒸馏方法的效果如何呢？考虑到特朗普拥趸众多，效果应该不会差。Hinton 使用了一个例子进行解释：假设一个智能体需要将图像归类到 1024 个互不重叠的类别。

要指认出正确答案，我们只需要 10 比特信息。因此，要训练该智能体正确识别一个特定样本，只需要提供 10 比特信息来约束其权重即可。

但假如我们训练一个智能体使之与一个教师在这 1024 个类别上的概率大致保持一致呢？也就是说，使该智能体的概率分布与该教师一样。这个概率分布有 1023 个实数，如果这些概率都不是很小，那么其提供的约束就增多了几百倍。

为了确保这些概率不是太小，可以「高温」运行教师，在训练学生时也以「高温」运行学生。比如说，如果采用的是 logit，那就是输入 softmax 的东西。对于教师来说，可以基于温度参数对其进行缩放，进而得到一个更 soft 的分布；然后在训练学生时使用同样的温度。

下面来看一个具体的例子。下图是来自 MNIST 训练集的字符 2 的一些图像，对应的右侧是当运行教师的温度高时，教师为每张图像分配的概率。

对于第一行，教师确信它是 2；教师对第二行也有信心是 2，但它也认为可能是 3 或 8。第三行则有些像 0。对于这个样本，教师应该说这是一个 2，但也应该留点可能性给 0。这样一来，比起直接告诉学生这是 2，学生能从中学到更多。

对于第四行，可以看到教师有信心它是 2，但它也认为有点可能是 1，毕竟有时候我们写的 1 就类似于图左侧画的那样。

对于第五行，教师出错了，认为它是 5（但根据 MNIST 标签应该是 2）。学生也能从教师的错误中学到很多。

蒸馏有一个很特殊的性质，那就是当使用教师给出的概率来训练学生时，那就在训练学生以老师那样的方式来进行泛化。如果教师为错误答案分配了一定的小概率，那么也会训练学生泛化到错误答案。

通常来说，我们训练模型是为了让模型在训练数据上得到正确答案，并能将这种能力泛化到测试数据上。但使用教师 - 学生训练模式时，我们是直接训练学生的泛化能力，因为学生的训练目标是能与老师一样地进行泛化。

很显然，我们可以创建更丰富的输出以供蒸馏。比如说我们可以为每张图像赋予一个描述，而不仅仅是单个标签，然后再训练学生来预测这些描述中的词。

接下来，Hinton 谈到了在智能体群中共享知识的研究。这也是一种传承知识的方式。

当多个智能体构成的社群互相共享知识时，共享知识的方式能在很大程度上决定计算执行的方式。

对于数字模型，我们可以通过复制创建大量使用相同权重的智能体。我们可以让这些智能体查看训练数据集的不同部分，让它们各自基于不同部分的数据计算权重的梯度，然后再对这些梯度进行平均。这样一来，每个模型都学到了其它每个模型学到的知识。这种训练策略的好处是能高效处理大量数据；如果模型很大，就可以在每次共享中共享大量比特。

同时，由于这种方法需要各个智能体的工作方式完全一样，因此就只能是数字模型才行。

权重共享的成本也很高。要让不同的硬件以同样的方式工作，就需要以极高的精准率生产计算机，使得它们在执行相同的指令时总是会得到相同的结果。另外，晶体管的功耗也不低。