TR1 - Transformer起源与发展

news2025/1/17 6:08:35
  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊 | 接辅导、项目定制

1. Transformer的起源与发展

2017年Google在《Attention Is All You Need》中提出了Transformer结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型。

Fast AI 在《Universal Language Model Fine-tuning for Text Classification》中提出了名库ULMFiT的迁移学习方法,将在大规模数据上预训练好的LSTM模型迁移到文本分类,只用很少标注就达到了最佳性能。

在Transformer结构发布后,出现了两个使用Transformer结构的著名模型:

  • GPT(the Generative Pretrained Transformer)
  • BERT (Bidirectional Encoder Representations from Tranformers)

通过Transformer结构与无监督学习的相合,不用在人头开始训练模型,几乎所有的NLP任务都远超先前的最强基准。

使用Transformer结构的模型三到处分为三类:

  • 纯Encoder模型:例如BERT,又称自编码(auto-encoding)Transformer模型
  • 纯Decoder模型:例如GPT,又称自回归(auto-regressive)Transformer模型
  • Encoder-Decoder模型:例如BART、T5,又称Seq2Seq(sequence-to-sequece)Transformer模型

2. 什么是Transformer

什么是自监督学习

自监督学习(Self-supervised Learning)是一种机器学习方法,其特点在于从数据本身自动生成标签或监督信号,无需人工标注。简单来说就是让机器利用数据本身的结构或特征来进行学习,从而不依赖于外部标签或监督信号。

自监督学习的优点

  • 数据利用率高:由于不需要人工标注标签,可以充分利用未标记数据,从而大大扩展了可用于训练的数据集
  • 泛化能力强:自监督学习训练出的模型通常具有良好的泛化能力,因为它们学习到了数据中的一般性特征,而不是依赖于特定的标签
  • 无监督表示学习:自监督学习可以作为无监督表示学习的一种方法,通过学习数据的表示,可以为后续的监督学习任务提供更好的初始化或者特征提取器

语言建模

常见的Transformer模型一般通过两种常用的预训练方法来预训练

  • 因果语言建模(Causal Language Modeling):基于句子的前N个词来预测下一个词,因为输出依赖于过去和当前的输入
  • 遮盖语言建模(Masked Language Modeling):基于上下文(周围的词语)来预测句子中被遮盖掉的词语(Masked Word)
    这些语言模型虽然 可以对训练过的语言产生统计意义上的理解,但是完成特定任务的效果往往不好,因此通常还会采用迁移学习(Transfer Learning)方法,使用特定任务的标注语料以有监督学习的方法对预训练模型参数进行微调,以取得更好的效果。

大语言模型

通常来说,目前的Transformer模型的参数量和预训练数据都非常大,而且呈现出不断增长的趋势

迁移学习

预训练:从头开始训练模型,所有的模型权重都被随机初始化,在没有任何先验知识的情况下训练
预训练
因此预训练需要海量的数据和高昂的时间与经济成本,大部分情况下我们不会选择预训练,而是将别人预训练好的模型权重 通过迁移学习应用到自己的模型中,对自己的任务数据集进行“二次训练”,通过微调参数使模型适用于新任务。

迁移学习的好处:

  • 减少数据需求:少量的数据集就可以对预训练模型进行微调
  • 加速训练过程:使用预训练模型参数做初始化权重 ,可以加速训练,因为模型已经学习到一些通用的特征或者表示
  • 提高模型性能:在预训练时学习到的一些通用特征,对目标任务可能也是有用的,因此可以通过迁移学习提高目标任务性能
  • 解决特定领域问题:有些特定领域数据获取非常困难,迁移学习可以帮助知识从易于获取数据的领域迁移到特定领域
  • 模型泛化能力提升:通过在不同任务中学习的出的通用特征,会具有更好的泛化能力

因此在绝大多数情况下,我们都应该找一个接近我们任务的预训练模型,然后微调它

3. Transformer结构

标准的Transformer模型主要是由两个模块组成:

  • Encoder:负责理解输入文本,为每个输入构造对应的语义表示(语义特征)
  • Decoder:负责生成输出,使用Encoder输出的语义表示结合其他输入来生成目标序列

两个模块可以根据任务需要单独使用:

  • 纯Encode模型:适用于只需要理解输入语义的任务,如句子分类、命名实体识别
  • 纯Decoder模型:适用于生成式任务,如文本生成
  • Encoder-Decoder模型或Seq2Seq模型:适用于需要基于输入的生成式任务,如翻译和摘要

注意力层

在Transformer中,注意力层(Attention Layer)是其核心组件之一。注意力机制允许模型在处理输入序列的每个元素时,对其他元素分配不同的注意力权重,从而能够更灵活地捕捉序列中的关联信息。

主要作用有:

  • 建立全局联系:注意力机制允许模型在处理序列中的每个位置时,关注整个输入序列的不同部分。使模型在预测或生成输出时考虑整个上下文,而不仅仅时当前位置的信息
  • 捕捉长距离依赖关系:传统的循环神经网络(RNN)在处理长序列时可能会面临梯度消失或梯度爆炸问题。通过引入注意力机制,Transformer可以更好的捕捉序列中的长距离依赖关系,无需受限于时间步的大小或固定的窗口大小
  • 并行计算:注意力机制允许模型并行计算每个位置的注意力权重,提高了计算效率。使Transformer模型在训练和推理时能够更快地处理大规模的序列数据
  • 自适应权重:注意力权重是通过学习得到的,它会自动调整以反映输入序列中不同位置的重要性,这种自适应性使模型能够更好地适应不同任务和输入分布

2. 原始结构

原始结构如下,左侧为Encoder,右侧为Decoder
原始结构

3. 分支流派

Encoder分支

纯Encoder模型只使用Transformer模型中的Encoder模块,也被称为自编码(self-encoding)模型。在每个阶段,注意力层都可以访问到原始输入句子中的所有词语,即具有“双向(Bi-directional)”注意力

纯Encoder模型通常使用遮盖语言建模来破坏给定的句子,然后让模型进行重构来进行预训练,最适合处理那些需要理解整个句子主义的任务,如:分类、命名实体识别、抽取式问答等。

纯Encoder有:

  • BERT:是第一个基于Transformer结构的纯Encoder模型,在提出时横扫了整个NLP界,在流行的GLUE基准上超过了当时所有的最强模型。通过预测文本中被遮盖的词语和判断一个文本是否跟随着另一个来进行预训练,前一个任务被称为遮盖语言建模(Masked Language Modeling,MLM)后一个任务被称为下句预测(Next Sentence Prediction, NSP)
  • DistilBERT:通过预训练期间使用知识蒸馏( knowledge distillation)技术,DistilBERT在内存占用减少40%,计算速度提高60%的情况下,依然可以保持原模型97%的性能
  • RoBERTa:在BERT之后一项研究表明,修改预训练方案可以进一步提高模型的性能。RoBERT在更多的数据集上,以更大批次训练了更长时间,并且放弃了NSP任务。与BERT模型相比,显著地提高了模型的性能
  • XLM:跨语言语言模型(XLM)探索了构建多语言模型的多个预训练目标,包括来自GPT的自回归语言建模和来自BERT的MLM,还将MLM拓展到多语言输入,提出了翻译语言建模(Translation Language Modeling,TLM)。XLM在多个语言NLU基准和翻译任务上都取得了最好的性能
  • XLM-RoBERTa:跟随XLM和RoBERTa,XLM-R通过升级训练数据来改进多语言预训练。其基于Common Crawl创建了一个2.5TB的语料,然后运用MLM训练编码器,由于没有平行对照文本,它移除了XLM的TLM建模方式。最终,该模型大幅超越了XLM和多语言BERT变体
  • ALBERT:通过三处变化使Encoder架构更高效。首先将词嵌入维度与隐藏维度解耦以减少模型参数;其次所有模型层共享参数;最后将NSP任务替换为句子排序预测(判断句子顺序是否被交换)。这些变换使可以用更少的参数训练更大的模型,并在NLU任务上取得了优异的性能
  • ELECTRA:MLM在每个训练步骤中只有被遮盖掉的词语表示会得到更新。ELECTRA使用了一种双模型方法来解决这个问题:第一个模型继续按标准的MLM工作;第二个模型(鉴别器)则预测第一个模型的输出中哪些词语是被遮盖的,这使得训练的效率提高了30倍。下游任务使用时,鉴别器也要参与微调。
  • DeBERTa:DeBERTa模型引入了两处架构变化 。首先将词语内容与相对位置分离,使自注意层可以更好地建模邻近词语对的依赖关系;此外在解码头的softmax层之前添加了绝对位置嵌入。DeBERT是第一个在SuperGLUE基准上击败人类的模型

Decoder分支

纯Decoder模型只使用了Transformer模型中的Decoder模块。在每个阶段,对于给定的词语,注意力只能访问句子中位于它之前的词语,即只能能迭代地基于已经生成的词语来逐个预测后面的词语,因此也被称为自回归(auto-agressive)模型

纯Decoder模型预训练的任务通常是预测下一个词语。适合处理那些涉及文本生成的任务。纯Decoder模型的探索很大程序上是由OpenAI带头进行的。通过不断使用更大的数据集进行预训练,以及将模型的规模扩大,纯Decoder模型的性能也在不断提高

纯Decoder模型有:

  • GPT:结合了Transformer Decoder架构和迁移,通过根据上下文预测下一个单词的预训练任务,在BookCorpus数据集上进行了预训练。GPT模型在分类等下游任务上取得了很好的效果
  • GPT-2:受简单且可扩展的预训练方法的启发,OpenAI通过扩大原始模型和训练集创造了GPT-2,它能够生成篇幅较长且语义连贯的文本
  • CTRL:GPT-2虽然可以根据模板(prompt)续写文本,但是几乎无法控制生成序列的风格。条件Transformer语言模型(Conditional Transformer Language,CTRL)通过在序列开头添加特殊的“控制符”以控制生成文本的风格,这样只需要调整控制符就可以生成多样化的文本
  • GPT-3:将GPT-2进一步放大100倍,GPT-3具有1750亿个参数,除了能生成令人印象深刻的真实篇章外,还展示了小样本学习(few-shot learning)的能力。该模型目前没有开源
  • GPT-Neo/GPT-J-6B:由于GPT-3没有开源,一些旨在重新创建和发布GPT-3规模模型的研究人员组成了EleutherAI,训练出了类似GPT的GPT-Neo和GPT-J-6B。当前公布的模型具有1.3,2.7,60亿个参数,在性能上可以媲美较小版本的GPT-3模型

Encoder-Decoder分支

Encoder-Decoder模型也叫Seq2Seq模型。同时使用了Transformer架构的两个模块。在每个阶段,Encoder注意层都可以访问初始输入句子中的所有单词,而Decoder的注意力层只能访问输入中给定词语之前的词语

Encoder-Decoder模型可以使用纯Encoder模型和纯Decoder模型的目的来完成训练,但是通常会包含一些更复杂的任务。如:T5通过随机遮盖掉输入中的文本片段进行预训练,训练目标则是预测出被遮盖掉的文本。Encoder-Decoder模型适合处理那些需要给定输入来生成新文本的任务,例如:自动摘要、翻译、生成式问答

Encoder-Decoder模型有:

  • T5:将所有的NLU和NLG任务都转换为Seq2Seq形式统一解决(如:文本分类就是将文本送入Encoder,然后Decoder生成文本形式的标签)。T5通过MLM及将所有的SuperGLUE任务转换为Seq2Seq任务来进行预训练。最终具有110亿参数的大版本T5在多个基准上取得了最优性能
  • BART:同时结合了BERT和GPT的预训练过程。将输入句子通过遮盖词语、打乱句子顺序、删除词语、文档旋转等方式破坏后传给Encoder编码,然后要求Decoder能够重构出原始文本。这使得模型可以灵活地用于NLU或NLG任务,并且在两者上都实现了最优性能
  • M2M-100:语言对之间可能存在共享知识可以用来处理小众语言之间的翻译。M2M-100是第一个可以在100种语言之间进行翻译的模型,并且对小众的语言也能生成高质量翻译。该模型使用特殊的前缀标记来指示源语言和目标语言
  • BigBird:由于注意力机制的内存要求,Transformer模型只能处理一定长度的文本。BigBird通过使用线性扩展的稀疏注意力形式,将可处理的文本长度从大多数据模型的512扩展到4096,这对于处理文本摘要等需要捕捉长距离依赖的任务特别有用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1534064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最细节操作 Linux LVM 逻辑卷管理

Linux LVM(逻辑卷管理) 周末愉快,今天带大家实战一下LVM! 一、LVM理论 LVM,即Logical Volume Manager,逻辑卷管理器,是一种硬盘的虚拟化技术,可以允许用户的硬盘资源进行灵活的调整和动态管理…

2023年五级区划省市县乡镇行政村社区边界数据

行政区划数据是重要的基础地理信息数据,根据国家统计局公布的数据,行政区划共分为五级,分别为省级、地级、县级、乡镇/街道级、村/社区级。 该套数据以2020-2023年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区…

JavaSE:数据类型与变量

目录 一、前言 二、数据类型与变量 (一)字面常量 (二)数据类型 (三)变量 1.变量概念 2.语法格式 3.整型变量 3.1整型变量 3.2长整型变量 3.3短整型变量 3.4字节型变量 4.浮点型变量 4.1双精…

详解main函数参数argc、argv及如何传参

目录 1、main()函数参数 2、main函数如何传参 2.1 环境准备 2.2 通过 Powershell 窗口传参 2.3 通过vs界面传参 3、int main() 和 int main(int argc, char *argv[]) 特点 1、main()函数参数 在C语言中,main函数可以带参数。main函数的原型通常为以下两种形式…

第4章 数据架构

思维导图 架构是构建一个系统(如可居住型建筑)的艺术和科学,以及在此过程中形成的成果——系统本身。用通俗的话说,架构是对组件要素有组织的设计,旨在优化整个结构或系统的功能、性能、可行性、成本和用户体验。 将架…

Vue cli创建项目时键盘操作无效;vue3.0项目搭建自定义配置

一. 问题描述 在创建vue3.0项目时,在建好的文件夹,鼠标右键 git bash 使用 vue create my-vue3.0创建新项目时,键盘方向键失效,无法选中对应的选项(交互提示符不工作) 解决方案: 方案一 使用…

章文嵩等技术大咖共同探讨企业数据治理和降本增效策略运用!

3 月 16 日,AutoMQ 携手 OceanBase 开源社区、KubeBlocks 举行的《LLMs 时代下企业数据管理与降本增效之路》主题 meetup 顺利落幕。活动邀请了 AutoMQ 联合创始人 & CSO、Linux LVS 创始人 章文嵩,AutoMQ 联合创始人 & CTO、Apache RocketMQ 联…

一文秒懂什么是客服知识库

大家有没有遇到过这样的情况:打电话给客服,结果对方半天没明白你的问题,或者回答得牛头不对马嘴?这种时候,你是不是觉得特别郁闷,感觉自己的问题就像被丢进了黑洞,永远找不到答案?其…

利用pyvista库可视化点云

ShapeNet分割数据可视化对比 import os import glob import randomimport pyvista as pvresult_paths glob.glob(r./examples/shapenet/results/predict_err_ply/*/*) print(len(result_paths))case_id random.randint(0, len(result_paths) // 3) point_size 3 opacity 0.…

NX二次开发——选择对象控件(清空选择对象)

一、概述 选择对象控件在NX二次开发中经常使用,最近进行学习时发现一片博客中有清空选择对象控件中出现问题,我尝试着写了一下,应该可以解决博主中的问题,其实博主已经写的很详细了,几乎没怎么改,不知道是不…

又一个城市火了,媒介盒子盘点城市爆火原因

近日,“甘肃天水麻辣烫”在各大平台频频登上热搜榜,甘肃当地也及时接住了这泼天富贵,开通“麻辣烫专线”、机场高铁免费接、免费送门票等。这些措施似曾相识,因为在天水前,已经有淄博和哈尔滨这两个城市的案例可以供天…

Linux本地部署TeslaMate结合内网穿透实现公网访问内网车辆信息

文章目录 1. Docker部署TeslaMate2. 本地访问TeslaMate3. Linux安装Cpolar4. 配置TeslaMate公网地址5. 远程访问TeslaMate6. 固定TeslaMate公网地址7. 固定地址访问TeslaMate TeslaMate是一个开源软件,可以通过连接特斯拉账号,记录行驶历史,统…

【C++】输入流操作符 >> 的重载实现

scmd >> icmd 这一行代码的工作原理基于C的标准库对输入流操作符(istream extraction operator,即 >>)的重载实现。以下是详细的执行顺序和内部逻辑: 对象准备:在此场景中,scmd 是一个 istring…

成都数字产业园有哪些

成都,这座古老而又充满活力的城市,正逐渐成为数字经济的热土。在这座城市的各个角落,数字产业园如雨后春笋般崭露头角,它们为成都的数字化转型注入了强大的动力。首当其冲的便是国际数字影像产业园。 国际数字影像产业园区&#x…

AI写作如何使用,这些方法简单好学!

随着人工智能技术的不断发展,AI写作成为了一个热门话题。许多人都想知道如何使用AI写作来提高效率和质量。在本文中,我们将探讨一些简单而又易学的方法,帮助大家充分利用AI写作。 首先,我们需要了解什么是AI写作。AI写作是指利用人…

测试开发面试题总结(全)

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 某基金管理公司线下测试开发面试题总结。 测开题目如下 可以尝试自己先写,写完之后…

用tp6写的简单的eml的登录和curd

项目地址&#xff1a; 企业管理eml: 这是一个简单的eml (gitee.com) 1.登录和主页显示 1.1 登录功能逻辑图 1.2 控制器 app/controller/index.php php think make:validate LoginValidate <?php namespace app\controller;use app\BaseController; use app\model\User; …

探索海外市场舆情:云手机助力企业赢得全球竞争

在全球化的趋势下&#xff0c;越来越多的企业将目光投向海外市场&#xff0c;迎接着无尽的商机与挑战。然而&#xff0c;随之而来的是境外市场舆情的复杂变化&#xff0c;对企业的声誉和发展带来了潜在风险。如何准确、及时地掌握境外市场的舆情动向&#xff0c;成为了企业必须…

异常 --java学习笔记

异常 异常就是代表程序出现的问题 当一个方法出现问题&#xff0c;这个方法内部就会把这个问题的信息封装成一个异常对象&#xff0c;然后把这个异常对象抛给jvm虚拟机&#xff0c;jvm收到之后会先把出问题的程序先停下来&#xff0c;然后再把这个异常对象打印出来&#xff0c…

libVLC 元数据

libVLC是一个开源的多媒体框架&#xff0c;主要用于处理和播放各种类型的媒体文件&#xff0c;如视频、音频等。 媒体元数据&#xff08;Metadata&#xff09;&#xff1a;包括媒体文件的基本信息&#xff0c;如标题、艺术家、专辑、持续时间、分辨率、比特率、编码格式等。 …