现代 NLP:详细概述,第 1 部分:transformer

news2025/3/19 13:11:00


阿比吉特·罗伊
·

一、说明

        近五年来,随着 BERT 和 GPT 等思想的引入,我们在自然语言处理领域取得了巨大的成就。在本文中,我们的目标是逐步深入研究改进的细节,并了解它们带来的演变。

二、关注就是你所需要的

        2017 年,来自 Google Brains 的 Ashish Vaswani 与多伦多大学的同事一起提出了一种用于序列到序列任务(例如神经语言翻译和释义)的想法,该想法不同于现有的按时间步长的单字方法由 LSTM 和 RNN 实现。

        检测到的 RNN 现有架构存在的问题是:

  1. 由于我们一次添加一个单词,在长序列的情况下,很难保留信息。在使用 RNN 和 LSTM 的编码器-解码器结构模型中,隐藏向量从一个时间戳传递到另一个时间戳。然后,在最后一步中,我们将最终的上下文向量传递给解码器。与序列的前几个单词相比,传递给解码器的隐藏上下文向量对最后几个单词的影响更大,因为信息会随着时间的推移而消失。
  2. 为了解决第一点提到的问题,引入了注意力机制。这表明在解码时,我们单独关注输入序列中的单词。输入序列中的每个单词都会获得一个特定的注意力权重向量,然后将该向量乘以单词向量以创建向量的加权和。但问题是,由于我们一次一步地执行此操作,计算时间太长,而且也没有完全消除信息丢失。

2.1 想法

        变形金刚建议使用一种称为自注意力的概念。该模型将一次接收整个句子,然后使用自注意力来决定句子中其他单词在当前单词上下文中的重要性。因此,与常设循环架构相比,它具有以下优点:

  1. 在检测权重时,我们已经拥有了所有单词,因此不存在信息丢失的可能性,而且我们从双方都获得了上下文。也就是说,我们了解所选单词之前的单词和后面的单词,这有助于形成更好的上下文,而不是循环结构(Bi-LSTM 的情况除外)。
  2. 由于我们可以获得完整的句子,并且我们需要找到句子中每个单词的所有其他单词的重要性,因此我们可以对所有单词并行执行此操作。这节省了大量的处理时间并充分利用处理能力。

2.2 自注意力:构建块

        自注意力机制试图找出其他单词对于特定单词的重要性,然后创建一个组合的上下文向量来表示该单词。基本上,这意味着,如果你在句子中选择一个单词,它与句子中其他单词的相关程度有多少?众所周知,单词定义了句子的上下文,而单词的含义往往取决于上下文。这是一种找出句子上下文和相关单词的方法。

单词及其与其他单词的对应重要性

        为了实现这一点,它对句子中的每个输入单词嵌入 (xi) 使用三个向量,即查询 (Qi)、键 (Ki) 和值 (Vi)。根据论文,嵌入向量 x 的长度建议为 512。为了获得这些向量,首先定义三个权重矩阵:Wq、Wv 和 Wk。我们将每个输入词向量 Xi 与相应的权重矩阵相乘,以获得给定词的键、查询和值向量。

Qi = Xi * Wq

Vi = Xi * Wv

Ki = Xi * Wk

        为了找出单词 xi 在单词 xj 的上下文中的重要性,我们需要找到单词 xi 对应的关键向量 Ki 与单词 xj 的查询向量 Qj 的标量点积。然后点积结果除以向量 Ki 维度的平方根,即 8,因为论文中给出的 k 维度为 64。正如论文所建议的,如果我们不除法,点积值就会太大,这会导致 softmax 值变得太陡,从而产生不利于平滑学习的不良梯度。

向量计算:其中Xi是输入词的嵌入,W是权重矩阵。

        一旦我们找出了给定单词的所有单词的重要性,我们就对所有单词的结果使用 softmax。softmax 提供了所有单个单词的最终重要性,使得它们的总和为 1。接下来是单词的值 Vi 向量,我们将向量 Vi 与其相应的重要性相乘。直觉是创建单词表示的值向量,而重要性因素则为主题词的上下文赋予权重。如果一个单词与上下文单词没有关系,它的重要性值将非常非常低,因此最终的乘积向量将非常低,我们可以忽略它对任务的重要性。最后,我们取所有这些加权值向量的总和来创建该特定单词的最终上下文向量,该向量是我们从注意力块接收到的。

一个词的注意力计算

2.3 多头注意力

        我们已经看到了注意力如何工作并为每个单词产生上下文向量。本文的作者使用了多头注意力,以获得无偏的复合上下文向量。他们使用了8个这样的注意力头,为一个单词提供了8个不同的上下文向量。这个想法是,因为每个内部重量矩阵(即WQ,WV和WK)都是随机初始化的,因此每个头部初始化点的变化可能有助于捕获上下文向量中的一系列不同特征。

        最后,对于每个单词,我们都有8个上下文向量,我们将它们串联在一起以获取给定单词的代表性上下文向量。

所有关注的头脑都聚在一起

2.4 自我发挥的障碍:将所有这些结合在一起

        到目前为止,我们讨论过的任何内容都是基于句子中的一个特定单词,但是我们确实需要考虑句子中的所有单词并使系统平行。

        本文建议我们使用长度512的嵌入来表示句子中的每个单词。现在,我们已经知道,对于NLP任务,我们通常需要使用零盖来均衡句子长度。接下来,我们彼此堆叠所有512维词向量,并且由于句子中有固定的单词,我们会得到一个固定的维度2D向量来表示整个句子,这是通过整个注意力发送的。机制。

整体工作

一旦我们获得了所有单词的组合上下文向量,它就会乘以另一个权重矩阵,该矩阵集中学习并降低向量的维度。

三、变压器:体系结构

变压器架构

        变压器还遵循标准编码器架构体系结构。为了简单,更好的学习,单词向量和层的输出的维度都保持在512。模型的学习是以自动回归的方式完成的,即,单词是一个一个人生成的,对于(t+1)单词的预测,我们将t字的输出附加到输入中,然后将其馈送到模型。

        编码器:作者使用了带有2个子层的模块。第一层包含多头注意,我们在上面已经讨论过,第二个子层是完全连接的进料层。前馈层由2个连接的正常神经网络层组成。进料前层的输入和输出为尺寸512,但内部维度为2048,即,内部层中的节点数为2048。完全连接的图层使用Relu激活。作者还使用了加法和归一化层来平滑学习,并避免了我们在几个NLP和计算机视觉案例中看到的信息丢失。

因此,方程变为

output = norm(x + f(x)),其中x是输入,f()是层的转换,可以是前馈或注意块。

编码器块中有6个这样的模块。

        解码器:这与编码器块非常相似。这也有 6 个模块和类似的架构。唯一的区别是,除了已经存在的 2 个子层之外,解码器块还引入了第三个子层,这也是一个注意层,但输入被屏蔽,因此模型无法使用第 (t+1) 个时间戳单词作为输入,同时预测第 t 个单词。没有掩码的多头注意力子层从相应层的编码器获取值。因此,该层接收来自前一个解码器层和相应编码器层的输入。

掩蔽是这样实现的

        据作者称,模型在训练时以 3 种不同的方式使用了注意力层。正如我们所知,我们将所有单词的三个向量(Key、Query 和 Value)输入到注意力块中,作者使用它来更好地训练模型。

        选项 1:在这种情况下,查询来自前一个解码器层,内存键和值来自编码器的输出。这允许解码器中的每个位置关注输入序列中的所有位置。

        选项 2:在这种情况下,值和查询来自编码器中前一层的输出。编码器中的每个位置可以关注编码器上一层中的所有位置。

        选项 3:在这种情况下,值和查询来自解码器中前一层的输出。解码器中的每个位置可以参与解码器前一层中的所有位置。现在,这一点带来了屏蔽多头注意力的重要性,因为模型在 t+1 时看不到单词,所以保留了自回归属性。

最后,作者使用了一个线性变换层,然后是一个 softmax 层。

四、位置编码

        除了模型之外,本文还引入了位置编码的概念。问题是,由于本文没有使用循环网络或卷积网络,也不是基于时间步长的,作者认为应该有一些东西来表示单词的位置,因为它在表达含义中起着重要作用的句子。

        为了解决这个问题,作者提出了两种估计。

        其中 pos 是单词的位置,i 是维度,dmodel = 512,输入维度大小。编码的大小也保持在 512 维,因此可以轻松地将它们添加到词嵌入中。作者选择了这些特定函数,因为这些函数在一定偏移量后给出相同值的倍数,因此可以表示为线性函数。

五、结论

        我们已经了解了变压器的工作原理;接下来,该系列的第二个故事讲述 GPT。我们还将了解其他演变及其实现。

至此,祝您阅读愉快!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1336015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java多线程技术六——线程的状态

1 概述 线程在不同的运行时期存在不同的状态,状态信息在存在于State枚举类中,如下图。 每个状态的解释如下图 调用于线程有关的方法是造成线程状态改变的主要原因,因果关系如下图 从上图可知,在调用与线程有关的方法后&#xff0…

Upload-Labs-Linux

题目 1.打开靶机 随便上传一个图片&#xff0c;查看get请求发现/upload/XXX.jpg 2.创建一个脚本文件 命名为flag.php.jpg,并上传 脚本文件内容&#xff1a; <?php eval($_POST[1234])?> 3上传后复制文件get请求的链接并打开蚁剑 连接密码为123 双击链接 4&#xff…

ios 之 数据库、地理位置、应用内跳转、推送、制作静态库、CoreData

第一节&#xff1a;数据库 常见的API SQLite提供了一系列的API函数&#xff0c;用于执行各种数据库相关的操作。以下是一些常用的SQLite API函数及其简要说明&#xff1a;1. sqlite3_initialize:- 初始化SQLite库。通常在开始使用SQLite之前调用&#xff0c;但如果没有调用&a…

云计算:现代技术的基本要素

众所周知&#xff0c;在儿童教育的早期阶段&#xff0c;幼儿园都会传授塑造未来行为的一些基本准则。 今天&#xff0c;我们可以以类似的方式思考云计算&#xff1a;它已成为现代技术架构中的基本元素。云现在在数字交互、安全和基础设施开发中发挥着关键作用。云不仅仅是另一…

在Android中使用Flow获取网络连接信息

在Android中使用Flow获取网络连接信息 如果你是一名Android开发者&#xff0c;你可能会对这个主题感到有趣。考虑到几乎每个应用程序都需要数据交换&#xff0c;例如刷新动态或上传/下载内容。而互联网连接对此至关重要。但是&#xff0c;当用户的设备离线时&#xff0c;数据如…

Flink电商实时数仓(六)

交易域支付成功事务事实表 从topic_db业务数据中筛选支付成功的数据从dwd_trade_order_detail主题中读取订单事实数据、LookUp字典表关联三张表形成支付成功宽表写入 Kafka 支付成功主题 执行步骤 设置ttl&#xff0c;通过Interval join实现左右流的状态管理获取下单明细数据…

OGG-MySQL无法正常同步数据问题分析

问题背景: 用户通过OGG从源端一个MySQL从库将数据同步到目标端的另一个MySQL数据库里面&#xff0c;后面由于源端的从库出现了长时间的同步延时&#xff0c;由于延时差距过大最后选择通过重建从库方式进行了修复 从库重建之后&#xff0c;源端的OGG出现了报错ERROR OGG-0014…

电商数据分析-02-电商业务介绍及表结构

参考 电商业务简介 大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统 举个例子:&#x1f330; 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明&#xff0c;用户点开电商首页开始浏览&…

蓝桥杯备赛 day 1 —— 递归 、递归、枚举算法(C/C++,零基础,配图)

目录 &#x1f308;前言 &#x1f4c1; 枚举的概念 &#x1f4c1;递归的概念 例题&#xff1a; 1. 递归实现指数型枚举 2. 递归实现排列型枚举 3. 递归实现组合型枚举 &#x1f4c1; 递推的概念 例题&#xff1a; 斐波那契数列 &#x1f4c1;习题 1. 带分数 2. 反硬币 3. 费解的…

小程序面试题 | 18.精选小程序面试题

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

大师计划1.0 - log2 CRTO笔记

CRTOⅠ笔记 log2 这个笔记是我在2023年11月23日-12月22日中&#xff0c;学习CRTO所做的一些笔记。 事实上TryHackMe的路径和htb学院包含了许多CRTO的知识并且甚至还超出了CRTO&#xff08;CS除外&#xff09;&#xff0c;所以很多东西在THM和htb学院学过&#xff0c;这次CRTO等…

RK3588平台开发系列讲解(AI 篇)RKNN rknn_query函数详细说明

文章目录 一、查询 SDK 版本二、查询输入输出 tensor 个数三、查询输入 tensor 属性(用于通用 API 接口)四、查询输出 tensor 属性(用于通用 API 接口)五、查询模型推理的逐层耗时六、查询模型推理的总耗时七、查询模型的内存占用情况八、查询模型里用户自定义字符串九、查询原…

往年面试精选题目(前50道)

常用的集合和区别&#xff0c;list和set区别 Map&#xff1a;key-value键值对&#xff0c;常见的有&#xff1a;HashMap、Hashtable、ConcurrentHashMap以及TreeMap等。Map不能包含重复的key&#xff0c;但是可以包含相同的value。 Set&#xff1a;不包含重复元素的集合&#…

第四周:机器学习知识点回顾

前言&#xff1a; 讲真&#xff0c;复习这块我是比较头大的&#xff0c;之前的线代、高数、概率论、西瓜书、樱花书、NG的系列课程、李宏毅李沐等等等等…那可是花了三年学习佳实践下来的&#xff0c;现在一想脑子里就剩下几个名词就觉得废柴一个了&#xff0c;朋友们有没有同感…

Linux操作系统基础知识点

Linux是一种计算机操作系统&#xff0c;其内核由林纳斯本纳第克特托瓦兹&#xff08;Linus Benedict Torvalds&#xff09;于1991年首次发布。Linux操作系统通常与GNU套件一起使用&#xff0c;因此也被称为GNU/Linux。它是一种类UNIX的操作系统&#xff0c;设计为多用户、多任务…

滤波器(Filter)

滤波器 常用滤波器元器件 馈通电容滤波器NFM18PC104R1C3 \SDCW2012-2-900TF \ 0603 0.1UF(104) 16V 文章目录 滤波器前言一、滤波器是什么二、两路 0805共模滤波器 阻抗90Ω@100MHz三、0603 0.1UF(104) 16V四、馈通电容滤波器NFM18PC104R1C3总结前言 滤波器在电子系统中具有…

车载网络 - BootLoader - UDS刷写闲聊

聊升级的话,我们不得不聊一下MCU升级的一些基础概念;我们今天就简单说下,如果大家有兴趣,可以评论区留言,我后续继续补充内容或者私聊都可以的。 目录 一、MCU内存说明 二、常见的2类BOOT段 三、常见的APP段

机器人制作开源方案 | 森林管理员

​作者&#xff1a;李佳骏、常睿康、张智斌、李世斌、高华耸 单位&#xff1a;山西能源学院 指导老师&#xff1a;赵浩成、郜敏 1. 研究背景 森林作为地球上可再生自然资源及陆地生态的主体&#xff0c;在人类生存和发展的历史中起着不可代替的作用&#xff0c;它不仅能提供…

比宜德停业,奥乐齐死磕,硬折扣该怎样长硬不衰?

作者 | 楚文龙 来源 | 洞见新研社 刚刚过去的周末&#xff0c;让零售行业的从业者神经紧绷。因为&#xff0c;12月23日多个信源曝出&#xff0c;社区硬折扣超市比宜德已公告于12月22日起暂停营业。 作为中国第一家&#xff0c;也是唯一一家规模最大的硬折扣社区连锁店零售商&…

FLStudio21中文版水果编曲软件好用吗?如何下载最新版本

FL Studio21版是一款在国内非常受欢迎的多功能音频处理软件&#xff0c;我们可以通过这款软件来对多种不同格式的音频文件来进行编辑处理。而且FL Studio 21版还为用户们准备了超多的音乐乐器伴奏&#xff0c;我们可以直接一键调取自己需要的音调。 FL Studio21版不仅拥有非常…