Transformer 架构告诉我们什么?

news2024/11/15 8:49:03

         欢迎来到雲闪世界。ChatGPT 等大型语言模型 (LLM) 的出色表现震惊了世界。这一突破源于 Transformer 架构的发明,该架构出奇地简单且可扩展。它仍然由深度学习神经网络构建。主要新增功能是所谓的“注意力”机制,该机制将每个单词标记置于语境中。此外,其前所未有的并行性赋予 LLM 巨大的可扩展性,因此在训练数十亿个参数后具有令人印象深刻的准确性。

事实上,Transformer 架构所展现出的简单性堪比图灵机。不同之处在于,图灵机控制着机器在每个步骤中可以做什么。然而,Transformer 就像一个神奇的黑匣子,通过参数优化从大量输入数据中学习。研究人员和科学家仍然对发现它的潜力以及研究人类思维的任何理论意义非常感兴趣。

在本文中,我们将首先讨论 Transformer 架构的四个主要特性:词嵌入、注意力机制、单词预测以及多模态扩展和迁移学习等泛化能力。本文旨在关注该架构为何如此有效,而不是如何构建它(读者可以在 Medium 上找到许多关于如何构建它的优秀文章)。然后,我们将探讨它是否有助于解释我们的大脑如何工作,而不仅仅是未来人工智能的新兴操作系统。最后,我们将探讨 LLM 是否能在今天或未来拥有意识。

Transformer 架构的主要特点

词嵌入

词向量并不是新事物。它是自然语言处理 (NLP) 的基础,在 20 世纪 90 年代开始蓬勃发展。词向量使用高维空间中的向量表示一个词(或子词)。每个维度可以是一个特征、类别或概念(例如颜色、性别、皇室、食物等)。向量和维度的交集构成了一个参数,可通过梯度下降过程通过训练进行修改。下面是一个简单的示例,展示了词向量的基本概念。

    具有相同特征的单词会沿着相同的维度排列,而空间中彼此距离较近的单词被认为含义相似或相关。因此,词向量可以通过线性代数运算来计算和推理,例如向量加法、减法或乘法(即乘法)。因此,向量之间的距离编码了单词之间的相似程度;向量的位置和方向反映了对应单词之间的关系。

我们无法想象一个高维空间(超过 3)。理解它的典型方法是将这些高维向量投影到二维空间。下面的图表仅作为演示示例,显示类似的单词(例如 Kings 和 Queens)彼此接近,而苹果、橙子和葡萄则形成另一个集群。

  例如,在介绍 Transformer 架构的初始论文中,每个词嵌入在输入层中有 512 个特征,在内部层中有 2048 个特征。在多个训练集中,单词标记的数量从 25K 到 41K 不等。512 到 2024 维的矩阵编码了从大量训练文本中学习到的单词的含义,尽管每个维度代表的确切特征尚不清楚。

特征维度还可以包括模型自己学习的语法规则。换句话说,LLM 可以隐式地学习语法。一个典型的例子是让一个程序学习莎士比亚的所有文本,模型的输出可以说出像样的莎士比亚式语言。在内部,每个单词的预测都是通过向量计算得出的,以便在高维嵌入空间中找到最有可能的单词。

注意力机制

Transformer 中的注意力机制是计算单词与上下文的相似度和重要性。从技术上讲,它是计算词向量的点积,然后由 softmax 函数执行归一化。上下文可以是同一句话中的前几个单词,也可以是整个词向量中的任何单词。前者称为“自注意力”,后者称为“交叉注意力”。

点积也可以用几何定义来更直观地理解。假设有两个向量:A 和 B。点积是它们的欧几里得量级与它们之间夹角的余弦值的乘积,如下图所示(公式 1)。从几何上讲,它们之间的夹角越小,余弦值和点积就越大,并且这两个词在特定上下文中的相关性就越高,就像在高维空间中表示的那样。由于每个词向量都有数百或数千个特征维度,因此点积在某些维度上可能更稳健,而在其他维度上则较弱。

     有趣的是,A 和 B 的相关系数也是角度的余弦(见上文 (2) 和 (3) 的公式)。角度较小时,A 和 B 的相关性更高,具有某些共同的特征或概念。当角度为 90 度时,A 和 B 的相关性为 0,点积也为 0,这意味着它们不相关且彼此呈对角线。当角度为 180 度时,它们是负相关的,余弦为 -1。

此外,Transformer 注意力矩阵遵循查询 (Q)、键 (K) 和值 (V) 的三个通用结构,以模拟典型的数据库检索过程。查询是所要求的信息;键是关键字或特征;值是与键相关的内容。查询和键的点积产生注意力分数,然后将其应用于计算每个单词的值的加权总和。

一个常见的类比是在 YouTube 上搜索视频。在搜索栏中输入的文本是查询。搜索引擎首先根据一组键(例如视频标题、关键字、标签等)检查查询中的单词,以计算相关性分数。然后将分数应用于与每个键相关的候选视频。最后,将得分最高的最匹配视频呈现给观看者。

考虑到嵌入有超过 100K 个词向量和 512 到 2048 个维度,计算每个可能的词对之间的点积需要大量计算。因此,多头注意力机制将任务按特征维度拆分为并行进程。假设输入维度为 512,每个头拆分为 4 个维度;多头注意力机制最终会产生 512/4 = 128 个并行进程。输出层和内部网络层也需要类似的并行进程。只要有足够的 GPU 来完成任务,这种大规模并行性就成为 Transformer 架构的重要推动因素。

一次预测一个单词

归根结底,LLM 模型是一个序列预测程序,它循环遍历每个单词并找到下一个最可能的单词。预测之所以成为可能,是因为已建立的嵌入对所有单词进行了编码,包括它们的关系、位置和上下文。

通过注意力机制,当前的问题或句子变成问题矩阵,与键和值进行交互以检索具有相似上下文的最相关的单词。

预测完全基于 Transformer 输出端计算的概率。一旦选出一个单词,就用它来预测下一个单词,依此类推。这听起来很矛盾:所有这些 ChatGPT 有意义的文本和摘要都是通过概率和方差逐字生成的。这是因为在输入提示或查询之前已经完成了所有艰苦的工作,并且单词的概率已经从广泛的学习中编码出来。单词预测以词向量为基础,由幕后的目标上下文搜索(即自注意力)驱动。

这种简单的逐字预测令人难以置信,另一个原因是,传统的 NLP 是由人类对语言的看法驱动的,其中语法和句法规则是最重要的。Transformer 不依赖于这些。它通过从大量文本语料库中学习来掌握规则,并将它们编码到最终的总概率中。

此外,人工智能研究人员从过去几十年的经验中了解到,机器学习的效率更高,因为结构越少,算法越简单。庞大的计算机能力支持的大量参数在人工智能模型的成功中发挥了重要作用。正如 OpenAI 研究员 Hyung Won Chung 在一次演讲中所说,“过去 70 年人工智能发展过程中的惨痛教训可以归结为:逐步开发具有较弱模型假设的更通用的方法,并添加更多数据和计算(即扩大规模)。”结构和建模假设越少,模型的可扩展性就越强 —— 这就是 Transformer 的情况。

概括

Transformer 架构不仅适用于文本,还能够处理其他输入模式。第一个实现是视觉信息。2020 年底,谷歌研究人员报告了第一个基于 Transformer 的视觉模型,完全独立于卷积神经网络 (CNN)。该模型称为视觉变换器 (ViT)。它将图像分割成 16 x 16 个块,将每个块标记为一个向量,在图像末尾填充分类文本,并将向量按顺序输入到 Transformer 编码器,就像一系列单词表示一样。

对于输出,分类问题变成了单词预测问题。当呈现图像时,模型通过预测序列中的下一个分类词来识别图像。这不仅仅是视觉处理,还是一种图像和文本交织的双模态任务。

如上所述,使用向量点积,自注意力机制可以提升单词序列中的重要单词。同样,它会提升图像中的相关对象或特征,同时“取消”图像中不重要的部分。此功能类似于 CNN 中的卷积滤波器。

鉴于 ViT 的成功,具有多种模态(包括文本、图像和视频)的 Transformer 模型蓬勃发展,并且至今仍在快速发展。多模态能力让 Transformer 几乎拥有无限的潜力,可以学习任何东西,并以特定的输出格式(例如图像、视频或音频)执行特定任务,甚至可以玩游戏或控制机器人运动。

另一个概括是,经过训练的嵌入与上下文对齐,可以迁移到另一个 Transformer 模型。这种“迁移学习”非常有益。对于较小的公司或个人来说,从头开始构建和训练超大型模型是不切实际的,因为这会耗费大量的资源和能源。相反,他们可以使用较少但更专业的训练数据对迁移的嵌入进行微调,以实现特定目标。DistilBERT 模型就是一个很好的例子,它从 BERT 中获取了基础知识,并且可以在开源社区(例如 Hugging Face)中找到。

法学硕士学位告诉我们有关大脑的什么知识?

它们是否共享相同的神经网络机制?

鉴于 LLM 能够以前所未有的精度完成、翻译和总结文本的强大功能,这引出了一个重要的问题:Transformer 是否像人脑一样处理单词和句子?

有间接证据表明,大脑可能存在这种现象。然而,这一研究领域刚刚起步,目前还难以得出结论。神经科学家 Charlotte Caucheteux 和 Jean-Rémi Kin g在最近发表在《自然》杂志上的论文中很好地总结道:

“更重要的是,生成类似大脑表征的原理在很大程度上仍是未知的。事实上,过去的研究只调查了一小组预先训练的语言模型,这些模型通常在维度、架构、训练目标和训练语料库方面有所不同。因此,这些多重因素之间的内在相关性阻碍了识别导致算法生成类似大脑表征的因素。”

另一方面,Transformer 架构的巨大成功为神经科学家和心理学家提供了新的见解,使他们可以重新思考研究大脑认知功能的方法。正如Goldstein 等人所述:

“自回归(预测)深度语言模型 (DLM) 的杰出成功从理论和实践角度来看都是惊人的,因为它们来自与传统心理语言学模型截然不同的科学范式。在传统的心理语言学方法中,人类语言是用可解释的模型来解释的,这些模型将符号元素(例如名词、动词、形容词、副词等)与基于规则的操作相结合。相比之下,自回归 DLM 从现实世界的文本示例中“在野外”学习语言,对语言结构的先验知识很少或根本没有。”

人脑有超过 1000 亿个神经元和超过 100 万亿个突触。每立方毫米的大脑皮层包含约 50,000 个神经元,每个神经元与邻近和远处的细胞有大约 6000 个可调节的突触。这意味着每立方厘米的人脑有超过 3 亿个可调节参数。因此,考虑到它可以学习的文本和知识量巨大,具有数百万到数十亿个参数的 LLM 似乎是可以比较的。

普林斯顿大学教授 Uri Hasson 认为,Transformer 作为过度参数化的简单模型所展现出的蛮力学习,与进化过程类似,都是“简单而简约的”。在 Hasson 看来,缺乏可解释性并不是缺点,而可能是纯粹通过参数调整而不是直接规则进行学习的副产品 —— 就像进化会根据结果的适应度进行选择,而不关心生物设计和特定功能的执行方式。最终的结果是复杂世界中终极的灵活性和适应性。

情境学习和索引记忆

Transformer的注意力和人类的注意力一样吗?我们不知道,因为我们对大脑中注意力的神经机制了解甚少。

人类的注意力会增强对手头最相关或优先级最高的事物的学习,同时设置忽略大脑接收的其余绝大多数信息的状态。美国心理学之父威廉·詹姆斯在他的《心理学原理》一书中写道:

“注意力是指头脑以清晰而生动的形式,从看似同时出现的多个对象或思路中,集中注意力。意识的聚焦和集中是注意力的本质。”

一般来说,人类的注意力有两种类型:显性注意力和隐性注意力。显性注意力由我们的眼睛引导,我们的中央凹(视网膜上视觉敏锐度最高的区域)会注视某个物品或位置,而不是其他物品或位置。隐性注意力涉及在不移动眼球的情况下在精神上转移注意力,这需要前额叶皮层对大脑皮层的其他区域发挥执行控制作用。

Transformer 注意力机制实现了与人类注意力类似的效果。它丰富了单词之间的显著关系,并告诉模型应该“注意”哪些上下文和单词。鉴于此,Transformer 注意力机制可能会在不久的将来揭示大脑的基础,特别是大脑如何编码、输入、存储和检索上下文信息。

此外,Transformer 的自注意力机制就像工作记忆,其中主题和相关上下文交织在一起,以便将来高效检索。就人类经验而言,如果我们将一个单词与例句、图像、同义词等一起学习,我们往往会更好地记住它——我们为大脑提供上下文和类似的单词来编码一个抽象词。这种人类记忆技术类似于 Transformer 注意力机制如何对内容进行评分和对齐。虽然目前还没有生物学证据表明神经元会进行点积,但 Transformer 注意力机制似乎确实与大脑在功能层面索引记忆的方式一致。

正如我在上一篇关于记忆的文章中所讨论的,上下文相关门控 (XdG) 是克服 ANN 灾难性遗忘的有效方法。Transformer 的注意力机制提供了一种有效的方法来选择性地增强相关参数,而不会破坏其他学习到的权重。学习的 LLM 可迁移性证明了 Transformer 架构不会遇到其他 ANN 以前遇到的遗忘问题。它为 AI 解决遗忘问题和构建能够持续学习的应用程序开辟了新的机会。

LLM 有意识吗?

法学硕士令人震惊的语言能力引发了一​​个关键问题:他们是否有意识并知道自己在说什么。考虑到人类主要使用语言来表达和传达他们的意识,这个问题并不令人惊讶。

正如我们在之前关于意识的文章中所讨论的那样,意识有三个典型组成部分:当下的体验、醒来时体验的连续性以及自我,包括核心自我和自传自我(例如,社会自我、精神自我和自我意识)。法学硕士不包含上述任何一个。

人类的体验在清醒时始终存在,每个实例都是连贯且独特的。相比之下,LLM 是一种对人们的问题或提示做出反应的软件。它不会实时学习或与任何自然环境互动。它基于使用高维嵌入矩阵的 Transformer 解码器过程做出虚拟反应(而不是人类的身体反应),这是一个由 AI 工程师训练、微调和质量测试的专家知识系统。

然而,Transformer 架构(包括自注意力机制和多模态处理)已将滑块移向有意识的 AI。如果 LLM 模型与传感器和电机连接以实时与环境交互会怎样?那么 LLM 能否一次关注环境的不同方面并生成连续的体验实例?

有趣的是,在众多意识理论中,格拉齐亚诺和卡斯特纳提出了注意力图式假说。该理论认为“意识是对注意力状态的感知重建”,而这种机制是感知他人意识以及我们自己的意识的基础。换句话说,基于注意力对当前整合信息进行重建(这些信息不一定准确),产生了自我意识,并构成了“大脑中的社会机制”。

此外,该理论还提出了大脑职责的分离,即自上而下的大脑皮层通路负责“注意力控制”,而腹侧皮层区域负责“注意力的感知表征”。这种二分法与 Transformer 的自注意力过程与高维嵌入表示相关。鉴于此,LLM 可能用于检验意识的假设。

总而言之,尽管目前的法学硕士就像无意识的系统 1(诺贝尔奖获得者 Daniel Kahneman 在其著作《思考,快与慢》中提到),但著名哲学家和人工智能研究人员都表示有信心,未来一代的法学硕士可能能够达到某种形式的机器意识和系统 2 的深思熟虑的能力。正如哲学家 David Chalmers 在最近的一次会议上所说:

“我的结论是,在未来十年内,即使我们没有人类级别的通用人工智能,我们也可能会拥有具有意识的系统。机器学习系统在实现意识的道路上面临许多挑战,但应对这些挑战可能会带来一个有意识的人工智能研究项目。”

相反,Transformer 架构和法学硕士启发了哲学家、人工智能研究人员和神经科学家从前所未有的角度研究意识。研究意识一直具有挑战性,因为它是私密的——人类只能用自己的意识来召唤它。法学硕士现在和将来为完善意识的定义提供了新的机会。它们也可能为许多有争议的大脑意识理论提供试验台。(文章完整内容可联系博主)

结论

Transformer架构在注意力机制上的突破,让LLM取得了惊人的性能表现,将AI领域推向了另一个重要的里程碑,丝毫不逊于卷积神经网络(CNN)超越人类图像识别能力、深度强化学习(RL)在游戏中击败世界冠军的瞬间。

回顾过去几十年,成功的人工智能模型都表现出相同的特点:大量参数优化、大量训练数据、强大的计算能力以及最少的显式规则或复杂算法。法学硕士已达到另一个巅峰,其特点是跨多种模态的通用性和令人印象深刻的可扩展性。

然而,与 CNN 和深度强化学习不同,Transformer 的数学之美尚未在生物大脑中发现。虽然并非每个 AI 结果都必须模仿大脑,但 Transformer 为神经科学家研究人类大脑内部运作提供了新的理论和灵感。

感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助解决云计算及产业相关解决方案)

 订阅频道(https://t.me/awsgoogvps_Host)
 TG交流群(t.me/awsgoogvpsHost)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1966791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

睿考网:CPA考试各科难度分析

CPA考试分为专业阶段和综合阶段两个部分,其中专业阶段包含六个科目,六科难度分别为大家介绍一下。 《会计》科目是CPA专业阶段中基础且难度较低的科目,同时也是核心的科目。对于零基础的考生来说,可能会感到困难,需要…

【C语言】堆的实现

堆的基本概念 堆在逻辑上是完全二叉树,那什么又是完全二叉树呢? 完全二叉树简单来说就是前n-1层每个节点都有两个儿子,最后一层叶子紧挨着排列。 堆在物理结构上适合用数组存储。 让我们先来学习树->二叉树的基本知识(可看文…

verilog中的$radom函数

我需要产生一个背压。背压每次经过x个时钟周期之后翻转,x是0到1_6000间的一个随机数。 如下图的代码,($random % 10)产生的是-9到9的数,包括0, ($random % 10) 1 那么值就在 -8到10之间。 always (posedge clk) beginDATA_READ…

K8S可视化管理平台KubeSphere

什么是 KubeSphere ? KubeSphere 是一款开源项目,在目前主流容器调度平台 Kubernetes 之上构建的企业级分布式多租户容器管理平台,提供简单易用的操作界面以及向导式操作方式,在降低用户使用容器调度平台学习成本的同时&#xff…

DBeaver连接mysql时,报错Public Key Retrieval is not allowed

解决 在新建连接的时候,驱动属性里设置 allowPublicKeyRetrieval 的值为 true。

SQL进阶技巧:Hive URL解析函数详解及实际应用

目 录 0 实际业务需求 1 URL的基本组成 2 PROTOCOL 协议 3 Hive中的URL解析函数 3.1 数据准备 3.2 创建数据库 3.3 需求 3.3.1 parse_url 讲解 3.3.2 测试 3.3.3 实现需求 3.3.4 注意问题 3.5 parse_url_tuple 3.5.1 需求 3.5.2 实现需求 3.5.3 注意问题 4 小…

HTML + CSS 学习指南:从入门到精通

一、HTML CSS 简介 HTML 和 CSS 在网页开发中扮演着至关重要的角色。HTML 如同网页的骨架,为网页提供了基本的结构和内容。它使用各种标签来定义页面的元素,如标题、段落、图片、链接等,确保信息得以有条理地组织和呈现。 CSS 则恰似网页的…

点可云ERP进销存V8版本—购货退货单操作使用讲解

本章我们讲解购货退货单的使用场景及操作使用说明。 购货退货单是指供应商收回或退还给采购方的货物的单据。它记录了购货方向供应商退还货物的详细信息,一般会在货物质量问题、退货政策、错误订购等情况下发生购货退货。 购货退货单可以通过两个方式产生&#xff0…

学习记录——day24 多进程编程

创建三个进程 可以让父进程创建一个子进程&#xff0c;再由父进程或者子进程创建一个子进程 #include <myhead.h> int main(int argc, char const *argv[]) {pid_t pid fork();if (pid >0){//父进程pid_t pid1 fork();if (pid1 >0){printf("father\n"…

linux Ubuntu 安装mysql-8.0.39 二进制版本

我看到网上很多都写的乱七八糟, 我自己总结了一个 首先, 去Mysql官网上下载一个mysql-8.0.39二进制版本的安装包 这个你自己去下载我这里就写一个安装过程和遇到的坑 第一步 解压mysql压缩包和创建my.cnf文件 说明: 二进制安装指定版本MySQL的时候&#xff0c;需要手动写配置…

十月稻田玉米品类全国销量领先背后:“卖点”到“买点”的用户思维

近日&#xff0c;十月稻田在梯媒全新上线的新潮玉米广告&#xff0c;吸引了很多消费者的注意。 画面里&#xff0c;十月稻田的黄糯玉米棒金黄且饱满&#xff0c;旁白是广告语&#xff1a;“新玉米上市&#xff0c;香香香&#xff01;”。这支广告也挑起了许多观众的食欲&#…

【QGroundControl二次开发】七.QGC自定义MAVLink消息MavLink通信协议 C++应用

1. 接收解析源码分析 通过接收串口或UDP发来的的字节流buffer&#xff0c;长度lengthbuffer.size()&#xff0c;通过下列脚本解析&#xff0c;每解析出一个mavlink数据包就执行onMavLinkMessage函数 for(int i 0 ; i < length ; i){msgReceived mavlink_parse_char(MAVL…

【运维自动化】网络统一监控运维管理解决方案(PPT建设方案)

运维自动化是提升IT运维效率、降低人力成本、增强系统稳定性和可靠性的关键举措。随着业务规模的增长&#xff0c;传统的手动运维方式已难以满足快速响应和高效管理的需求。自动化运维通过脚本、工具和系统平台&#xff0c;实现日常任务自动化执行、故障预警与快速恢复、资源优…

数据结构笔记纸质总结

1.基本概念 2.复杂度 3.线性表 4.栈 5.队列 6.串 7.数组 8.矩阵 9.广义表 10.树

15.3 Zookeeper官方使用_实现分布式锁

1. 简介 2. 代码演示 2.1 客户端连接类 package com.ruoyi.common.zookeeper;import com.ruoyi.common.exception.UtilException; import

命途多舛的Concepts:从提出到剔除再到延期最后到纳入,Concepts为什么在C++中大起大落?

在C的漫长发展史中&#xff0c;Concepts&#xff08;概念&#xff09;的故事显得尤为引人注目。它的历程不仅是C社区技术演进的缩影&#xff0c;也是对软件工程实践的一次深刻反思。本文将详细剖析C的Concepts&#xff1a;它是什么&#xff0c;它的设计初衷与使用场景&#xff…

快手商业化 Java后端 二面|面试官很nice

面试总结&#xff1a;没有那种纯八股问题&#xff0c;都是偏向于情景题。看到面试官最后出了一道多叉树的题目&#xff0c;我以为是想直接刷人&#xff0c;但还是尽力去尝试了一下&#xff0c;最后也没做出来&#xff0c;面试官很nice&#xff0c;在答不上来的时候会引导我去思…

煤矿行业智慧矿山信息化解决方案

文章摘要 煤矿行业背景概述煤炭行业经历了从普通机械化到自动化的跨越&#xff0c;目前正向智能化发展。尽管煤矿智能化尚处于起步阶段&#xff0c;但智能化程度正不断进步。 煤矿信息化发展趋势信息化发展趋势从单机自动化监控系统&#xff0c;发展到全矿井综合自动化系统&am…

【算法】斐波那契查找(黄金分割查找)

原理 斐波那契查找的原理与二分查找、插值查找相似&#xff0c;仅仅是改变了中间节点&#xff08;mid&#xff09;的位置&#xff0c;mid 不再是中间或插值得到的&#xff0c;而是位于黄金分割点的附近&#xff0c;即 mid low F(k-1)-1 &#xff08;F代表斐波那契数列&#…

Java 应用中的内存泄漏:常见场景及最佳实践

内存泄漏是 Java 应用程序中一个常见而棘手的问题&#xff0c;它会导致应用程序的内存使用不断增长&#xff0c;最终影响性能和稳定性。尽管 Java 提供了垃圾回收机制来自动管理内存&#xff0c;但内存泄漏问题依然普遍存在。内存泄漏的根源可能包括不再使用的对象仍被持有引用…