Transformer详解,中文版架构图

news2024/11/24 15:32:12

 

2.2.1 “编码器-解码器”架构
Seq2Seq 思想就是将网络的输入输出分别看作不同的序列,然后实现序列到序列
的映射,其经典实现结构就是“编码器-解码器”框架。编码器-解码器框架如图 2.7 所
示。


图2.7 编码器-解码器的基本框架


在 Seq2Seq 思想应用于自然语言处理之初,编码器解码器主要使用的是 RNN 及
其变体。针对输入,编码器会先遍历输入序列,根据循环神经网络的特性,每一层的
输入都包含了当前层的输入前一层的隐藏状态,而新的隐藏状态则会被用作下一层
的输入编码器一般只保留最后一层的隐藏状态,作为整个输入的语义向量,送入解

码器中,而这个语义向量输入解码器后会被看作是解码器初始的隐藏状态。
但由于循环神经网络本身的结构特性,如果输入序列过长,模型性能就会明显的
降低。这是因为使用循环神经网络只会将最后一层的隐藏状态作为表征整个输入文本
的语义向量,而句子中靠前的序列就会产生信息丢失问题。同时,在输出序列中,因
为输入的是已经损失了的语义向量,某些词对应的原始文本词已经在编码时丢失了。

图2.8 注意力机制原理示意图
为了解决这个问题,后续的相关工作中引入了注意力机制。注意力机制本质上借
鉴了人眼视觉处理信息的能力,可以概述为两个阶段:判断需要特别注意输入的哪个
部分;然后把资源优先分配给重要的部分。放在神经网络中,注意力机制就可以理解
为:在预测结果的时候把注意力侧重放在不同的特征上。
从数学上来讲,注意力机制[25]的计算可以被描述为一个查询(Query)到一系列
键值对(Key-Value)的映射。注意力机制计算的原理如图 2.8 所示:
其计算方式也可以归纳为两个步骤:
(1)先使用查询 Query 和键 Key 计算权重系数 ,求相似性的方法有点乘、权
重、余弦相似性等等,再用 SoftMax 操作对权重归一化,得到( ( , ))softmax f Q K

 

(2)第二个阶段再对 Value 进行加权求和,计算得到注意力的输出:

“编码器-解码器”框架引入注意力机制后,使用编码器对输入序列进行编码,首
先得到语义向量,然后可以得到一个所有语义向量的加权和,称之为语境
向量 ,使用代表注意力的权重参数,则语境向量可以表示为:


解码过程中,每一个输出词的概率可以由语境向量、前一层的隐状态共同确定:


其中,f 和g 分别代表非线性变换,一般指的是多层神经网络; 代表输出序列
中的一个词, 代表对应的隐状态;此外,注意力的权重参数可以使用另外的神经
网络计算得到的:
 


2.2.2 Transformer 网络


注意力机制在 Seq2Seq 中的应用在各项自然语言生成任务中都有提升。之后
Google 在 2017 年提出了 Transformer[13]模型,使用注意力机制、全连接前馈层、残差
连接组成的网络结构替代了 RNN,在多个自然语言处理任务乃至视觉任务上都有了
很大的提升。
Transformer 的整体结构如图 2.9 所示,也遵循“编码器-解码器”架构,编码器模
块主要由两个子层组成,分别是多头注意力机制(Multi-Head Self-attention Mechanism,
MHSM)和全连接前馈层(Fully Connected Feed-Forward Network),每个子层之后都
添加了层归一化(Layer Normalization,LN)和残差连接(Residual Connection)。

解码器块由三个子层组成,第一层是具有掩蔽功能的多头注意力层,可以防止信息泄露
第二层是整合编码器输出上一层解码器输出的多头注意力层;

第三层是全连接前置反馈层,同样每个子层后都添加了层归一化和残差连接


 

 模型中的点积注意力机制可以由以下公式表示:( , , ) ( )

而多头注意力就是通过h 个不一样的线性变换一起对输入的, ,Q K V 进行投影,并
进行点积注意力计算,最后再把不同的结果拼接起来。多头注意力的公式表示如

其中,d 为模型的维度,并且 为最后的线性投影层的权重矩阵
点积注意力机制与多头注意力机制的对比如图 2.10 所示。

 


图2.10 点积注意力与多头注意力机制示意图
全连接前馈层的作用是为模型提供非线性变化,由两个线性层和一个激活函数组
成,可以由下式表示:1 1 2 2( ) max(0, )FFN x xW b W b= + +
(2-18)
此外,对于文本而言,单词出现位置与顺序也很重要,Transformer 为了能保留文
本中的序列顺序及位置信息,提出了利用正余弦函数来保留序列中标记的相对或绝对
位置的方法。具体做法是利用正余弦函数对序列进行编码,并与输入嵌入语句向量进
行求和。2
( ,2 ) ( 10000 )modeli d
pos iPE sin pos=
(2-19)2
( ,2 1) ( 10000 )modeli d
pos iPE cos pos+ =
(2-20)
2.2.3 复制机制和指针机制
Seq2Seq 模型用于文本摘要有三个问题,即:倾向于生成重复文本、无法处理未
登录词问题(Out-of-Vocabulary,OOV)和无法准确复制真实细节。于是,指针生成
 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/648492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器鸟实现摆动尾巴功能

1. 功能说明 本文示例将实现R329样机机器鸟摆动尾巴的功能。 2. 电子硬件 在这个示例中,我们采用了以下硬件,请大家参考: 主控板 Basra主控板(兼容Arduino Uno)‍ 扩展板 Bigfish2.1扩展板‍ 电池7.4V锂电池 电路连接…

新的挑战:WebGL

这段时间一直在死磕 Chromium 的 8K 高清视频播放,虽然之前写过一些关键技术的实现,主要难点差不多攻破,但投入到产品中,依然还要解决很多实际中的问题,比如卡顿、格式支持、音视频不同步等等。前期的相关文章&#xf…

RocketMQ基础API使用以及基本原理探究

文章目录 同步发送异步发送单向发送拉模式随机获取一个queue的消息指定一个queue的消息 顺序消息广播消息延迟消息批量消息过滤消息Tag过滤sql过滤 事务消息RocketMQ常见问题RocketMQ如何保证消息不丢失?RocketMQ的消息持久化机制RocketMQ如何保证消息顺序RocketMQ事…

Day07 Python函数详解

文章目录 第四章 Python函数使用4.1. 函数介绍4.2. 函数的定义与使用4.2.1. 函数的定义4.2.2. 调用 4.3. 函数的参数4.4. 函数的返回值4.4.1. 返回值介绍4.4.2. None类型 4.5. 函数说明4.5.1. 函数注释4.5.2. 函数的4中定义方式4.5.3. 函数的调用 4.6. 函数的嵌套调用4.7. 函数…

哪款 IMG BXS GPU 适合您的汽车?

Imagination 是汽车行业领先的图形处理器供应商。Imagination 的 GPU IP 经过了九代更新迭代,为车辆提供了舒适性和安全性,在汽车行业的总出货量接近 5 亿。通过将响应迅速的 HMI(人机界面)与功能日益强大的高级驾驶员辅助系统相结…

Linux:主机状态监控

查看系统的资源占用 可以通过top命令,查看系统CPU、内存使用情况 top命令内容详解: 第一行:top:命令名称,10.49.16:当前系统时间,up 4:40:启动了4小时40分,4 users&#…

Aspose.Pdf使用教程:为PDF文件添加swf注释

Aspose.PDF 是一款高级PDF处理API,可以在跨平台应用程序中轻松生成,修改,转换,呈现,保护和打印文档。无需使用Adobe Acrobat。此外,API提供压缩选项,表创建和处理,图形和图像功能&am…

STL之priority_queue与仿函数

目录 一.仿函数1.介绍2.示例 二.priority_queue1.介绍2.成员函数3.模拟实现4.使用 三.其他1.typename Container::value_type 一.仿函数 1.介绍 函数对象,又称仿函数,是可以像函数一样使用的对象,其原理就是重载了函数调用符:()…

浅谈数据中台之标签管理平台

在现如今的大数据时代,相信大家一定了解或者听说过下列几个场景: 购物APP:千人千面,意思不同用户使用相关的产品感觉是不一样的,不同用户看到的购物APP首页推荐内容和其他相关推荐流信息可能是完全不同的。 社交APP&…

实例:使用网络分析仪进行电缆测试

本应用测试针对非标称50Ω的线缆,包括同轴、双绞线、差分高速数据线的测试,包括阻抗参数、S参数(插损、驻波、Smith图等等),也可以绘制眼图。 根据电缆的性能,如频率范围、长度、是否差分,设置…

Linux:root用户

root用户对Linux系统拥有最大的操作权限。 普通用户的权限一般都在home目录下,超过home目录后,普通用户在很多地方只有只读和执行的权限,但没有修改权限。 1、su命令:切换到root用户的命令语法: su -root “-”符号是可…

精密空调监控:不会这个技巧,千万不要尝试

随着科技的不断进步和信息化的发展,精密空调设备被广泛应用于数据中心、通信基站、医疗设施、实验室等对温度和湿度要求严格的环境中,以保证设备的正常运行和数据的安全性。 借助动环监控系统,精密空调可以实时了解设备的运行状态、温湿度的变…

数据库迁移 | Oracle数据迁移方案之技术两三点

今年Oracle似乎又火了,火得要下掉,目前中国大概有240数据库企业,在国产信创的大趋势下,一片欣欣向荣,国库之春已然来临。到今天为止,Oracle依旧是市场份额最大的数据库,天下苦秦久矣&#xff0c…

关于使用keil瑞萨RA4M2踩过的坑

一、之前在rasc添加的组件不能删除。 下面在rasc添加ThreadX,不只是RTOS,其他组件也出现这种情况。 当去掉组件不使用,重新配置。但是组件还是显示在软件包,导致编译出错。 解决方式,自己琢磨发现: 找到工…

腾讯视频技术团队偷懒了?!

👉腾小云导读 PC Web 端、手机 H5 端、小程序端、App 安卓端、App iOS 端......在多端时代,一个应用往往需要支持多端。若每个端都独立开发一套系统来支持,将消耗巨大的人力和经费!腾讯视频团队想到一个“偷懒”的方法——能不能只…

共建智慧工厂物联网平台方案 | 6.10 IoTDB X EMQ 主题 Meetup 回顾

6 月 10 日,IoTDB X EMQ 智慧工厂主题 Meetup 在深圳成功举办。工业物联网时序数据库研发商天谋科技、物联网数据基础设施软件供应商 EMQ 的两位技术大牛,针对多行业制造流程中数据传输、故障感知、决策执行等常见难题,通过数据基础设施平台的…

更智能、更强大:OpenAI发布升级版gpt-3.5-turbo-0613/16k速度提升,长度飙升4倍

OpenAI开发者平台最近推出了两个引人注目的GPT升级版本:gpt-3.5-turbo-0613和gpt-3.5-turbo-16k。这些新版本带来了一系列令人兴奋的功能和增强,为开发者提供了更加灵活和强大的自然语言处理工具。本文将为您介绍这两个版本的主要特点和优势。 gpt-3.5-t…

vue使用外部字体自定义LCD字体(晶管体)

大屏监控中常用到液晶字体效果,如下图所示: 一、下载字体格式 1、下载地址【Techno > LCD fonts | dafont.com】 二、解压字体 1、下载后,解压后都是.ttf文件,在Font Squirrel (这个地址打开,直接可以…

Multi-headed Self-attention(多头自注意力)机制介绍

对于输入的序列 来说,与RNN/LSTM的处理过程不同,Self-attention机制能够并行对进行计算,这大大提高了对特征进行提取(即获得)的速度。结合上述Self-attention的计算过程,并行计算的原理如下图所示&#xff…

储存卡格式化,分享3个正确方法!

Dam是个摄影师,经常使用储存卡存储各种照片、视频。正好他明天又要出外景,但害怕内存不够,想把储存卡格式化,又担心自己操作失误。因此求助如何正确格式化储存卡。 储存卡为我们存储文件等带来了诸多便利。有时候,我们…