Transformer 架构告诉我们什么？

欢迎来到雲闪世界。ChatGPT 等大型语言模型 (LLM) 的出色表现震惊了世界。这一突破源于 Transformer 架构的发明，该架构出奇地简单且可扩展。它仍然由深度学习神经网络构建。主要新增功能是所谓的“注意力”机制，该机制将每个单词标记置于语境中。此外，其前所未有的并行性赋予 LLM 巨大的可扩展性，因此在训练数十亿个参数后具有令人印象深刻的准确性。

事实上，Transformer 架构所展现出的简单性堪比图灵机。不同之处在于，图灵机控制着机器在每个步骤中可以做什么。然而，Transformer 就像一个神奇的黑匣子，通过参数优化从大量输入数据中学习。研究人员和科学家仍然对发现它的潜力以及研究人类思维的任何理论意义非常感兴趣。

在本文中，我们将首先讨论 Transformer 架构的四个主要特性：词嵌入、注意力机制、单词预测以及多模态扩展和迁移学习等泛化能力。本文旨在关注该架构为何如此有效，而不是如何构建它（读者可以在 Medium 上找到许多关于如何构建它的优秀文章）。然后，我们将探讨它是否有助于解释我们的大脑如何工作，而不仅仅是未来人工智能的新兴操作系统。最后，我们将探讨 LLM 是否能在今天或未来拥有意识。

Transformer 架构的主要特点

词嵌入

词向量并不是新事物。它是自然语言处理 (NLP) 的基础，在 20 世纪 90 年代开始蓬勃发展。词向量使用高维空间中的向量表示一个词（或子词）。每个维度可以是一个特征、类别或概念（例如颜色、性别、皇室、食物等）。向量和维度的交集构成了一个参数，可通过梯度下降过程通过训练进行修改。下面是一个简单的示例，展示了词向量的基本概念。

具有相同特征的单词会沿着相同的维度排列，而空间中彼此距离较近的单词被认为含义相似或相关。因此，词向量可以通过线性代数运算来计算和推理，例如向量加法、减法或乘法（即乘法）。因此，向量之间的距离编码了单词之间的相似程度；向量的位置和方向反映了对应单词之间的关系。

我们无法想象一个高维空间（超过 3）。理解它的典型方法是将这些高维向量投影到二维空间。下面的图表仅作为演示示例，显示类似的单词（例如 Kings 和 Queens）彼此接近，而苹果、橙子和葡萄则形成另一个集群。

例如，在介绍 Transformer 架构的初始论文中，每个词嵌入在输入层中有 512 个特征，在内部层中有 2048 个特征。在多个训练集中，单词标记的数量从 25K 到 41K 不等。512 到 2024 维的矩阵编码了从大量训练文本中学习到的单词的含义，尽管每个维度代表的确切特征尚不清楚。

特征维度还可以包括模型自己学习的语法规则。换句话说，LLM 可以隐式地学习语法。一个典型的例子是让一个程序学习莎士比亚的所有文本，模型的输出可以说出像样的莎士比亚式语言。在内部，每个单词的预测都是通过向量计算得出的，以便在高维嵌入空间中找到最有可能的单词。

注意力机制

Transformer 中的注意力机制是计算单词与上下文的相似度和重要性。从技术上讲，它是计算词向量的点积，然后由 softmax 函数执行归一化。上下文可以是同一句话中的前几个单词，也可以是整个词向量中的任何单词。前者称为“自注意力”，后者称为“交叉注意力”。

点积也可以用几何定义来更直观地理解。假设有两个向量：A 和 B。点积是它们的欧几里得量级与它们之间夹角的余弦值的乘积，如下图所示（公式 1）。从几何上讲，它们之间的夹角越小，余弦值和点积就越大，并且这两个词在特定上下文中的相关性就越高，就像在高维空间中表示的那样。由于每个词向量都有数百或数千个特征维度，因此点积在某些维度上可能更稳健，而在其他维度上则较弱。

有趣的是，A 和 B 的相关系数也是角度的余弦（见上文 (2) 和 (3) 的公式）。角度较小时，A 和 B 的相关性更高，具有某些共同的特征或概念。当角度为 90 度时，A 和 B 的相关性为 0，点积也为 0，这意味着它们不相关且彼此呈对角线。当角度为 180 度时，它们是负相关的，余弦为 -1。

此外，Transformer 注意力矩阵遵循查询 (Q)、键 (K) 和值 (V) 的三个通用结构，以模拟典型的数据库检索过程。查询是所要求的信息；键是关键字或特征；值是与键相关的内容。查询和键的点积产生注意力分数，然后将其应用于计算每个单词的值的加权总和。

一个常见的类比是在 YouTube 上搜索视频。在搜索栏中输入的文本是查询。搜索引擎首先根据一组键（例如视频标题、关键字、标签等）检查查询中的单词，以计算相关性分数。然后将分数应用于与每个键相关的候选视频。最后，将得分最高的最匹配视频呈现给观看者。

考虑到嵌入有超过 100K 个词向量和 512 到 2048 个维度，计算每个可能的词对之间的点积需要大量计算。因此，多头注意力机制将任务按特征维度拆分为并行进程。假设输入维度为 512，每个头拆分为 4 个维度；多头注意力机制最终会产生 512/4 = 128 个并行进程。输出层和内部网络层也需要类似的并行进程。只要有足够的 GPU 来完成任务，这种大规模并行性就成为 Transformer 架构的重要推动因素。

一次预测一个单词

归根结底，LLM 模型是一个序列预测程序，它循环遍历每个单词并找到下一个最可能的单词。预测之所以成为可能，是因为已建立的嵌入对所有单词进行了编码，包括它们的关系、位置和上下文。

通过注意力机制，当前的问题或句子变成问题矩阵，与键和值进行交互以检索具有相似上下文的最相关的单词。

预测完全基于 Transformer 输出端计算的概率。一旦选出一个单词，就用它来预测下一个单词，依此类推。这听起来很矛盾：所有这些 ChatGPT 有意义的文本和摘要都是通过概率和方差逐字生成的。这是因为在输入提示或查询之前已经完成了所有艰苦的工作，并且单词的概率已经从广泛的学习中编码出来。单词预测以词向量为基础，由幕后的目标上下文搜索（即自注意力）驱动。

这种简单的逐字预测令人难以置信，另一个原因是，传统的 NLP 是由人类对语言的看法驱动的，其中语法和句法规则是最重要的。Transformer 不依赖于这些。它通过从大量文本语料库中学习来掌握规则，并将它们编码到最终的总概率中。

此外，人工智能研究人员从过去几十年的经验中了解到，机器学习的效率更高，因为结构越少，算法越简单。庞大的计算机能力支持的大量参数在人工智能模型的成功中发挥了重要作用。正如 OpenAI 研究员 Hyung Won Chung 在一次演讲中所说，“过去 70 年人工智能发展过程中的惨痛教训可以归结为：逐步开发具有较弱模型假设的更通用的方法，并添加更多数据和计算（即扩大规模）。”结构和建模假设越少，模型的可扩展性就越强 —— 这就是 Transformer 的情况。

概括

Transformer 架构不仅适用于文本，还能够处理其他输入模式。第一个实现是视觉信息。2020 年底，谷歌研究人员报告了第一个基于 Transformer 的视觉模型，完全独立于卷积神经网络 (CNN)。该模型称为视觉变换器 (ViT)。它将图像分割成 16 x 16 个块，将每个块标记为一个向量，在图像末尾填充分类文本，并将向量按顺序输入到 Transformer 编码器，就像一系列单词表示一样。

对于输出，分类问题变成了单词预测问题。当呈现图像时，模型通过预测序列中的下一个分类词来识别图像。这不仅仅是视觉处理，还是一种图像和文本交织的双模态任务。

如上所述，使用向量点积，自注意力机制可以提升单词序列中的重要单词。同样，它会提升图像中的相关对象或特征，同时“取消”图像中不重要的部分。此功能类似于 CNN 中的卷积滤波器。

鉴于 ViT 的成功，具有多种模态（包括文本、图像和视频）的 Transformer 模型蓬勃发展，并且至今仍在快速发展。多模态能力让 Transformer 几乎拥有无限的潜力，可以学习任何东西，并以特定的输出格式（例如图像、视频或音频）执行特定任务，甚至可以玩游戏或控制机器人运动。

另一个概括是，经过训练的嵌入与上下文对齐，可以迁移到另一个 Transformer 模型。这种“迁移学习”非常有益。对于较小的公司或个人来说，从头开始构建和训练超大型模型是不切实际的，因为这会耗费大量的资源和能源。相反，他们可以使用较少但更专业的训练数据对迁移的嵌入进行微调，以实现特定目标。DistilBERT 模型就是一个很好的例子，它从 BERT 中获取了基础知识，并且可以在开源社区（例如 Hugging Face）中找到。

法学硕士学位告诉我们有关大脑的什么知识？

它们是否共享相同的神经网络机制？

鉴于 LLM 能够以前所未有的精度完成、翻译和总结文本的强大功能，这引出了一个重要的问题：Transformer 是否像人脑一样处理单词和句子？

有间接证据表明，大脑可能存在这种现象。然而，这一研究领域刚刚起步，目前还难以得出结论。神经科学家 Charlotte Caucheteux 和 Jean-Rémi Kin g在最近发表在《自然》杂志上的论文中很好地总结道：

“更重要的是，生成类似大脑表征的原理在很大程度上仍是未知的。事实上，过去的研究只调查了一小组预先训练的语言模型，这些模型通常在维度、架构、训练目标和训练语料库方面有所不同。因此，这些多重因素之间的内在相关性阻碍了识别导致算法生成类似大脑表征的因素。”

另一方面，Transformer 架构的巨大成功为神经科学家和心理学家提供了新的见解，使他们可以重新思考研究大脑认知功能的方法。正如Goldstein 等人所述：

“自回归（预测）深度语言模型 (DLM) 的杰出成功从理论和实践角度来看都是惊人的，因为它们来自与传统心理语言学模型截然不同的科学范式。在传统的心理语言学方法中，人类语言是用可解释的模型来解释的，这些模型将符号元素（例如名词、动词、形容词、副词等）与基于规则的操作相结合。相比之下，自回归 DLM 从现实世界的文本示例中“在野外”学习语言，对语言结构的先验知识很少或根本没有。”

人脑有超过 1000 亿个神经元和超过 100 万亿个突触。每立方毫米的大脑皮层包含约 50,000 个神经元，每个神经元与邻近和远处的细胞有大约 6000 个可调节的突触。这意味着每立方厘米的人脑有超过 3 亿个可调节参数。因此，考虑到它可以学习的文本和知识量巨大，具有数百万到数十亿个参数的 LLM 似乎是可以比较的。

普林斯顿大学教授 Uri Hasson 认为，Transformer 作为过度参数化的简单模型所展现出的蛮力学习，与进化过程类似，都是“简单而简约的”。在 Hasson 看来，缺乏可解释性并不是缺点，而可能是纯粹通过参数调整而不是直接规则进行学习的副产品 —— 就像进化会根据结果的适应度进行选择，而不关心生物设计和特定功能的执行方式。最终的结果是复杂世界中终极的灵活性和适应性。

情境学习和索引记忆

Transformer的注意力和人类的注意力一样吗？我们不知道，因为我们对大脑中注意力的神经机制了解甚少。

人类的注意力会增强对手头最相关或优先级最高的事物的学习，同时设置忽略大脑接收的其余绝大多数信息的状态。美国心理学之父威廉·詹姆斯在他的《心理学原理》一书中写道：

“注意力是指头脑以清晰而生动的形式，从看似同时出现的多个对象或思路中，集中注意力。意识的聚焦和集中是注意力的本质。”

一般来说，人类的注意力有两种类型：显性注意力和隐性注意力。显性注意力由我们的眼睛引导，我们的中央凹（视网膜上视觉敏锐度最高的区域）会注视某个物品或位置，而不是其他物品或位置。隐性注意力涉及在不移动眼球的情况下在精神上转移注意力，这需要前额叶皮层对大脑皮层的其他区域发挥执行控制作用。

Transformer 注意力机制实现了与人类注意力类似的效果。它丰富了单词之间的显著关系，并告诉模型应该“注意”哪些上下文和单词。鉴于此，Transformer 注意力机制可能会在不久的将来揭示大脑的基础，特别是大脑如何编码、输入、存储和检索上下文信息。

此外，Transformer 的自注意力机制就像工作记忆，其中主题和相关上下文交织在一起，以便将来高效检索。就人类经验而言，如果我们将一个单词与例句、图像、同义词等一起学习，我们往往会更好地记住它——我们为大脑提供上下文和类似的单词来编码一个抽象词。这种人类记忆技术类似于 Transformer 注意力机制如何对内容进行评分和对齐。虽然目前还没有生物学证据表明神经元会进行点积，但 Transformer 注意力机制似乎确实与大脑在功能层面索引记忆的方式一致。

正如我在上一篇关于记忆的文章中所讨论的，上下文相关门控 (XdG) 是克服 ANN 灾难性遗忘的有效方法。Transformer 的注意力机制提供了一种有效的方法来选择性地增强相关参数，而不会破坏其他学习到的权重。学习的 LLM 可迁移性证明了 Transformer 架构不会遇到其他 ANN 以前遇到的遗忘问题。它为 AI 解决遗忘问题和构建能够持续学习的应用程序开辟了新的机会。

LLM 有意识吗？

法学硕士令人震惊的语言能力引发了一个关键问题：他们是否有意识并知道自己在说什么。考虑到人类主要使用语言来表达和传达他们的意识，这个问题并不令人惊讶。

正如我们在之前关于意识的文章中所讨论的那样，意识有三个典型组成部分：当下的体验、醒来时体验的连续性以及自我，包括核心自我和自传自我（例如，社会自我、精神自我和自我意识）。法学硕士不包含上述任何一个。

人类的体验在清醒时始终存在，每个实例都是连贯且独特的。相比之下，LLM 是一种对人们的问题或提示做出反应的软件。它不会实时学习或与任何自然环境互动。它基于使用高维嵌入矩阵的 Transformer 解码器过程做出虚拟反应（而不是人类的身体反应），这是一个由 AI 工程师训练、微调和质量测试的专家知识系统。

然而，Transformer 架构（包括自注意力机制和多模态处理）已将滑块移向有意识的 AI。如果 LLM 模型与传感器和电机连接以实时与环境交互会怎样？那么 LLM 能否一次关注环境的不同方面并生成连续的体验实例？

有趣的是，在众多意识理论中，格拉齐亚诺和卡斯特纳提出了注意力图式假说。该理论认为“意识是对注意力状态的感知重建”，而这种机制是感知他人意识以及我们自己的意识的基础。换句话说，基于注意力对当前整合信息进行重建（这些信息不一定准确），产生了自我意识，并构成了“大脑中的社会机制”。

此外，该理论还提出了大脑职责的分离，即自上而下的大脑皮层通路负责“注意力控制”，而腹侧皮层区域负责“注意力的感知表征”。这种二分法与 Transformer 的自注意力过程与高维嵌入表示相关。鉴于此，LLM 可能用于检验意识的假设。

总而言之，尽管目前的法学硕士就像无意识的系统 1（诺贝尔奖获得者 Daniel Kahneman 在其著作《思考，快与慢》中提到），但著名哲学家和人工智能研究人员都表示有信心，未来一代的法学硕士可能能够达到某种形式的机器意识和系统 2 的深思熟虑的能力。正如哲学家 David Chalmers 在最近的一次会议上所说：

“我的结论是，在未来十年内，即使我们没有人类级别的通用人工智能，我们也可能会拥有具有意识的系统。机器学习系统在实现意识的道路上面临许多挑战，但应对这些挑战可能会带来一个有意识的人工智能研究项目。”

相反，Transformer 架构和法学硕士启发了哲学家、人工智能研究人员和神经科学家从前所未有的角度研究意识。研究意识一直具有挑战性，因为它是私密的——人类只能用自己的意识来召唤它。法学硕士现在和将来为完善意识的定义提供了新的机会。它们也可能为许多有争议的大脑意识理论提供试验台。（文章完整内容可联系博主）