GPT与BERT模型

news2024/9/25 23:15:56

        NLP任务的核心逻辑是“猜概率”的游戏。BERT和GPT都是基于预训练语言模型的思想,通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。

        Bert 类似于Transformer的Encoder部分,GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差异为Multi-Head-Attention和Masked Multi-Head-Attention。

  • BERT:双向 预训练语言模型+fine-tuning(微调)

        BERT是基于Transformer网络架构和预训练语言模型提出的。在不同语言任务上达到最先进的水平,展示了预训练语言模型对于自然语言理解任务的巨大潜力。

        BERT属于AE模型(自编码),不会进行精确估计,但可 从mask的输入中重建原始数据的能力,AE模型通常用于内容理解任务,利用双向上下文信息,对原始输入进行重建。缩小了双向信息 gap,提高模型性能。BERT在预训练期间使用的[MASK]符号,在微调阶段的真实数据中并不存在,这会导致预训练-微调的差异。由于预测的token在输入中被mask,导致BERT无法像AR模型那样使用乘积方式对联合概率进行建模。在BERT假设中,给定unmask的token时,待预测的token彼此之间相互独立,这个假设过于简单化了,在自然语言中,high-order和long-range依赖是非常普遍的。

        BERT分为预训练和微调两部分,预训练是BERT模型的基础部分,使用大量的文本来训练语言模型。预训练时BERT模型会学习语言知识,如词汇、语法、句子结构等,预训练是为了让BERT模型有足够的语言能力处理不同的自然语言任务;微调过程是在预训练模型的基础上,使用少量标注数据调整模型参数。

BERT更适用于自然语言理解任务:

        问答系统:在问答系统中用来理解问题并生成答案。

        句子相似度比较:比较两个句子之间的相似程度。

        文本分类:对文本进行分类。

        情感分析:对文本进行情感分析。

        命名实体识别:识别文本中的命名实体。

Bert 使用填空的方式完成预训练,随机盖住一些输入的文字,被mask的部分是随机决定的。

第一种方法,用一个特殊的符号替换句子中的一个词, MASK 标记来表示特殊符号,作为一个新字,这个字完全是一个新词,它不在字典里,代表mask了原文。另外一种方法是随机把某一个字换成另一个字。两种方法方法随机使用,BERT 训练时,向BERT输入一个句子,先随机决定哪一部分的汉字被mask,mask后输入一个序列,把BERT的相应输出看作是另一个序列,在输入序列中寻找mask部分的相应输出,这个向量通过一个Linear transform,输入向量将与一个矩阵相乘,在做softmax,输出一个分布,一个很长的向量,包含要处理的每个汉字,每个字对应一个分数。mask的字符类似标签,用one-hot vector 表示这个字符,使输出和one-hot vector之间的交叉熵损失最小。BERT 是预测被MASK的内容,在训练中,在BERT后添加一个线性模型一起训练,预测被MNASK的字符。

  • GPT:自回归 预训练语言模型+Prompting(指示/提示)

        起源于对传统预训练语言模型(ELMO\ULMFit)的改进和升级,采用Transformer架构,使用预训练+微调的方式实现语言理解和生成。GPT预训练数据来源于网络文本数据。模型学习了基本的语言知识和结构,再在特定任务上微调,模型根据特定任务的需要来学习相关的知识。

        GPT是AR模型(自回归),从左往右学习的模型。AR模型从time steps中学习,将上一步结果作为回归模型的输入,预测下一个time step的值。AR模型通常用于生成式任务,在长文本的生成能力很强,比如自然语言生成(NLG)领域的任务:摘要、翻译或抽象问答。

        AR模型学习 time steps 的内在联系,预测下一个time step的值。如果两个变量朝着同一方向变化,比如同时增加或减少,则是正相关的;若变量朝着相反的方向变化,比如一个增加另一个减少,则是负相关的。这种相关性(正相关 or 负相关)越高,过去预测未来的可能性就越大;在深度学习训练过程中,对应的模型权重也就越高。这种相关性是在过去time steps中,变量与其自身之间的相关性,故称为自相关性,如果每个变量与输出变量几乎没有相关性,则无法预测。

AR语言模型的优缺点:

  • 优点:AR模型擅长生成式NLP任务。AR模型使用注意力机制,预测下一个token,适用于文本生成。AR模型将训练目标设置为预测语料库中的下一个token,因此生成数据相对容易。
  • 缺点:AR模型只能用于前向或者后向建模,不能同时使用双向的上下文信息,不能完全捕捉token的内在联系。

        GPT主要具体应用:文本生成、文本自动完成、语言翻译、对话生成、摘要生成

        GPT 的任务是预测后面的序列,相同大小数据集时Bert 会更好,如果预训练数据很大,GPT网络训练是不需要标注的,适于超大数据量的情况的特点。

GPT与BERT训练的不同:

  • GPT使用的是Transformer模型;BERT使用的是双向Transformer模型。
  • GPT的预训练使用大量的网络文本数据;BERT的预训练使用Wikipedia和BooksCorpus。
  • GPT预训练采用语言模型的方法,通过预测下一个词来学习语言模型;BERT预训练过程中采用了双向预测的方法,即通过预测句子中丢失的词来学习语言模型。
  • GPT微调时,需要指定输入输出的语言模型任务;BERT微调时可应用在多种任务上。

参考:

关于ChatGPT:GPT和BERT的差别(易懂版) - 知乎

一文读懂GPT家族和BERT的底层区别——自回归和自编码语言模型详解 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Matlab】Matlab实现数据的动态显示方法

Matlab实现数据的动态显示方法 主要为大家详细介绍了Matlab使用Plot函数实现数据动态显示方法,具有一定的参考价值,感兴趣的小伙伴们可 以参考一下 对于真实系统或者仿真平台,数据是增量式的产生的。Matlab除了强大的矩阵运算外,还…

PHP实践:用Yconf配置扩展为项目插上性能的翅膀

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师…

发布自定义node包,实现自定义脚本命令

比方说yarn,cnpm,vite等命令,无需执行node xxxx,可以自定义执行并完成一些操作 创建一个文件夹如下 在index.js中输入 #!/usr/bin/env node console.log(hello world);在package.json中添加 {...,"bin": {"pack…

USB——硬件控制器分类(OHCI UHCI EHCI xHCI)))

文章目录 OHCIUHCIEHCIxHCIKHCI HCI:Host Controller Interface 主机控制器接口 OHCI、UHCI都是USB1.1的接口标准 EHCI是对应USB2.0的接口标准 xHCI是USB3.0的接口标准 OHCI 全称为 Open Host Controller Interface,这是一种 USB 控制器标准&#…

陇剑杯2023线上wp

1. hard_web hard_web_1 题目内容:服务器开放了哪些端口,请按照端口大小顺序提交答案,并以英文逗号隔开(如服务器开放了 80 81 82 83 端口,则答案为 80,81,82,83) 半开放扫描 端口开放状态 攻击机发送 SYN 请求连接此端口靶机…

八、Linux中的用户与文件权限

1、普通用户与特权用户 (1)在Linux中,和windows中一样。用户分为普通用户和特权用户。 特权用户:拥有系统管理的绝对权限。普通用户:普通用户的权限受到限制,只拥有基本的权限,某些操作没有权限。 (2)Linux中的特权…

瑞芯微RK3588开发板:虚拟机yolov5模型转化、开发板上python脚本调用npu并部署 全流程

目录 0. 背景1. 模型转化1.1 基础环境1.2 创建python环境1.3 将yolov5s.pt转为yolov5s.onnx1.4 将yolov5s.onnx转为yolov5s.rknn 2. 开发板部署2.1. c版本2.1. python版本(必须是python 3.9) 3. 性能测试 0. 背景 全面国产化,用瑞芯微rk3588…

YOLOV7改进-Soft-NMS(支持多种IoU变种选择)

soft-nmslink 1、复制到utils-general.py下 2、找到nms的代码,在它前面复制过来就行 3、在之前的nms模块下修改,注释 4、选择iou的地方,默认正常的 5、xxtrue即可 6、训练的时候开启,会增加训练成本 7、在test的时候用 8、密集…

IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Maven目录结构和idea的整合

Maven工程目录结构约束(约束>配置>代码) 项目名 src【书写源代码】 main【书写主程序代码】 java【书写java源代码】resources【书写配置文件代码】 test【书写测试代码】 java【书写测试代码】 pom.xml【书写Maven配置】 测试步骤(进入项目名根目录【在根…

WMS仓储管理系统的功能与WCS系统有什么区别

在物流行业的现代化管理中,WMS仓储管理系统和WCS仓库控制系统是两个重要的组成部分。虽然它们都是用于仓库管理的软件系统,但是它们的功能和应用场景有很大的区别。本文我们将详细阐述这两者的功能和区别。 一、WMS仓储管理系统 WMS是一种软件系统&…

redux的理解

技术栈: react redux webpack react-router ES6/7/8 immutable 运行项目(nodejs 6.0) git clone https://github.com/bailicangdu/react-pxq.gitcd react-pxqnpm i 或者运行 yarn(推荐)npm startnpm run build (发布&…

JavaSE(一)--Java语法。。。更新中。。。

!!!本文适合有c和c基础的,通过比较c和java的不同,快速入门java。!!! 这篇文章主要是介绍和c不同的地方,没说的知识点按照c写就行了。 零.整体的结构 Java是面向对象的程…

VGG 07

一、发展 1989年,Yann LeCun提出了一种用反向传导进行更新的卷积神经网络,称为LeNet。 1998年,Yann LeCun提出了一种用反向传导进行更新的卷积神经网络,称为LeNet-5 AlexNet是2012年ISLVRC 2012(ImageNet Large Sca…

数据库分析工具explain

1.id:查询语句的编号 2.select_type:查询类型,有三种,simple简单查询,primary,subquery等 3.table:查询的表 4.type:查询性能,system > const > eq_ref > ref > range > index > ALL system&…

【EI会议征稿】第三届机械自动化与电子信息工程国际学术会议(MAEIE 2023)

第三届机械自动化与电子信息工程国际学术会议(MAEIE 2023) 第三届机械自动化与电子信息工程国际学术会议(MAEIE 2023)将于2023年12月15-17日在江苏南京举行。本会议通过与业内众多平台、社会各团体协力,聚集机械自动…

【亲测有效】申请wx.getLocation接口多次审核不通过解决方案,申请原因范文

背景:微信小程序申请wx.getLocation接口多次审核不通过 拒绝原因:你好,你的小程序“XXXX”申请的wx.getLocation接口因你提供的申请原因/辅助图片/网页/视频内容无法确认申请接口使用场景审核不通过,建议修改后重新提交。 经过多次…

数字化医院信息云平台源代码 HIS系统全套成品源代码

基层医疗云HIS作为基于云计算的B/S构架的HIS系统,为基层医疗机构提供了标准化的、信息化的、可共享的医疗信息管理系统,可有效进行医疗数据共享与交换,解决数据重复采集及信息孤岛等问题,实现对基层医疗数据的分析和挖掘&#xff…

使用ppyoloe训练voc数据集(自制的)详细教程

使用ppyoloe训练voc数据集(自制的)详细教程 一、数据集准备工作: Voc数据集的格式: 通过labelimg标注后的数据集如图所示 分别存放原图与xml标注文件 二、在ppdetection的工程下面找到dataset文件夹 其中有许多的参考数据的格式样例 在da…

Zebec Protocol 成非洲利比亚展会合作伙伴,并将向第三世界国家布局

在 9 月 6 日,The Digital Asset Summit ’23(利比亚大会)在尼日利亚首度阿布贾的 NAF 会议中心举办,该会议对 Web3 领域在非洲地区的发展进行了探索,旨在推动非洲地区区块链产业的进一步发展,据悉该会议室…

关于ChatGPT的个人的一些观点

问题 1 Q: 你认为ChatGPT是一款非常有用的工具吗? A: 我认为ChatGPT是一款非常有用的工具。它可以帮助人们解决各种问题,包括技术问题、心理问题、生活问题等等。同时,ChatGPT也可以成为人们分享想法和交流的平台,增强人与人之间…