【自然语言处理】BERT GPT

news2024/12/25 2:01:35

BERT & GPT

近年来,随着大规模预训练语言模型的发展,自然语言处理领域发生了巨大变革。BERTGPT 是其中最流行且最有影响力的两种模型。在本篇博客中,我们将讨论 BERTGPT 之间的区别以及它们的演变过程。

在这里插入图片描述

1.起源

2018 2018 2018 年, G o o g l e Google Google 首次推出 BERTBidirectional Encoder Representations from Transformers)。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。 BERT 的目标是创建一种语言模型,可以理解句子中单词的上下文和含义,同时考虑到它前后出现的单词。

2018 2018 2018 年, O p e n A I OpenAI OpenAI 首次推出 GPTGenerative Pre-trained Transformer)。与 BERT 一样,GPT 也是一种大规模预训练语言模型。但是,GPT 是一种生成模型,它能够自行生成文本。 GPT 的目标是创建一种语言模型,该模型可以生成连贯且适当的上下文文本。

2.架构

BERTGPT 都是基于 Transformer 架构构建的。Transformer 架构于 2017 2017 2017 年由 V a s w a n i Vaswani Vaswani 等人首次提出,作为一种神经网络结构,其旨在处理序列数据,例如文本。

BERTGPT 的主要区别在于它们的训练方式。 BERT 使用一种名为 掩码语言建模Masked Language ModelingMLM)的技术进行训练。在 MLM 中,模型经过训练以预测句子中缺失的单词。例如,给定句子The cat ___ on the mat,可能会要求模型预测缺失的单词 sits。这有助于模型学习理解句子中单词的上下文和含义。

在这里插入图片描述

另一方面,GPT 使用一种名为 自回归语言建模ALM)的技术进行训练。在 ALM 中,模型通过训练为在给定所有先前单词的情况下预测句子中的下一个单词。例如,给定句子 The cat sat on the ___,可能会要求模型预测缺失的单词 mat。这有助于模型学习生成连贯且适当的上下文文本。

在这里插入图片描述

3.性能

BERTGPT 在各种 NLP 任务中都取得了非常好的效果。尤其是 BERT,它在很多任务中都取得了最先进的成果,包括情感分析、问答和自然语言推理。

GPT 也取得了令人瞩目的成果,尤其是在与文本生成相关的任务中。目前,该模型已被广泛应用于诸如新闻、诗歌等领域的生成任务中。

4.演变

自最初发布以来,BERTGPT 都在不断发展和改进。 2019 2019 2019 年, G o o g l e Google Google 发布了 BERT 的更新版本 RoBERTaRobustly Optimized BERT Pretraining Approach)。 RoBERTa 使用更大的文本语料库和更复杂的训练过程进行训练,从而获得了比原始 BERT 模型更好的性能。

与此同时, O p e n A I OpenAI OpenAI 发布了几个新版本的 GPT,包括 GPT-2GPT-3 2019 2019 2019 年发布的 GPT-2 接受了比原始 GPT 模型更大的文本语料库的训练。 2020 2020 2020 年发布的 GPT-3 是目前​​最大、最强的语言模型之一,拥有 1750 1750 1750 亿个参数。

5.结论

综上所述,BERTGPT 是现代 NLP 中最具影响力的两种语言模型。它们都是使用 Transformer 架构构建的,并使用不同的技术进行训练。BERT 使用掩码语言建模进行训练,专注于理解句子中单词的上下文和含义,而 GPT 使用自回归语言建模进行训练,专注于生成连贯且上下文适当的文本

这两种模型在各种 NLP 任务中都取得了令人难以置信的成功,并且自首次发布以来一直在不断发展和改进。 BERT 已更新为 RoBERTa,而 GPT 已更新为 GPT-2GPT-3,这是目前最大、最强的语言模型之一。

这些模型的发展为 NLP 领域带来了重大进步,它们将继续应用于聊天机器人、机器翻译等各种程序中。随着 NLP 领域的不断发展和演变,这些模型将如何发展?它们可能带来哪些新的突破?我们拭目以待吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/374627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023软件测试现状,点工如何破局成为卷王····

近几年来的特殊情况,综合过去的大形势变化,所有行业都会自下而上的进行一轮技术“大清洗”,技术停滞不前的“点工”或将被逐步取代。 软件测试现状 测试行业在十几年间发生了翻天覆地的变化,从早期站在风口上的快速发展&#xf…

【mybatis】 01- mybatis快速入门

数据库创建(注意:最好先创建好数据库设置utf8再进行表创建) create database mybatis; use mybatis;drop table if exists tb_user;create table tb_user(id int primary key auto_increment,username varchar(20),password varchar(20),gender char(1),addr varch…

【数据结构】初识二叉树(二叉树的入门知识)

初识二叉树一、树概念及结构1、树的概念2、树的相关概念3、树的表示4、树在实际中的运用(表示文件系统的目录树结构)二、二叉树概念及结构1、概念2、特殊的二叉树3、二叉树的性质4、二叉树的存储结构三、结语一、树概念及结构 1、树的概念 树是一种非线…

【win10网络重置后,网络适配器消失或者不能使用】

注:此文章为重新整理的版本,旧版本:https://blog.csdn.net/Viwise/article/details/123263847?spm1001.2014.3001.5502 目录 一、问题描述 【总结】 【过程】 二、方法 1、针对设备问题代码为56的解决方法:安装CCleaner &am…

建模算法整理

优化 改进的蝙蝠算法 2022 E 2218144 使用背景:将每年砍伐树木比例定义为n,每年树木种植比例定义为m,设置一系列指标以及指标的加权计算方法(即函数F(X)的设定),寻找最优的n,m。 蝙蝠算法主要用于目标函数…

算法leetcode|38. 外观数列(多语言实现)

文章目录38. 外观数列:样例 1:样例 2:提示:分析:题解:rustgocpythonjava38. 外观数列: 给定一个正整数 n ,输出外观数列的第 n 项。 「外观数列」是一个整数序列,从数字…

【C++】map和set的封装(红黑树)

map和set的封装一、介绍二、stl源码剖析三、仿函数获取数值四、红黑树的迭代器五、map的[]5.1 普通迭代器转const迭代器六、set源码七、map源码八、红黑树源码一、介绍 首先要知道map和set的底层都是用红黑树实现的 【数据结构】红黑树 set只需要一个key,但是map既…

分布式-分布式消息笔记

消息队列应用场景 消息队列 消息队列是进程之间的一种很重要的通信机制。参与消息传递的双方称为生产者和消费者,生产者和消费者可以只有一个实例,也可以集群部署。 消息体是参与生产和消费两方传递的数据,消息格式既可以是简单的字符串&am…

MYSQL安装部署 - Linux 本地安装及卸载

声明 :# 此次我们安装的 MYSQL 版本是 8.0.32 版本我们本次安装 MYSQL 总共要介绍 四种方式# 仓库安装# 本地安装# 容器安装# 源码安装我们本篇介绍的是 本地安装 我们还是去官网下载 :我们就是找着 .bundle.tar 这个包,里面就包含了所有 mys…

功率信号源有什么作用和功能呢

功率信号源是指集信号发生器与功率放大器为一体的电子测量仪器,它具有高电压、大功率的特点,在电子实验室中能够帮助用来驱动压电陶瓷、换能器以及电磁线圈等,可以有效的帮助电子工程师解决驱动负载和放大功率的问题。功率信号源和功率放大器…

过滤器,监听器,拦截器的原理与在Servlet和Spring的应用

在Java Web的开发中,最原始和初期的学习都是从Servlet开始的,Servlet是Java最为耀眼的技术,也是Java EE的技术变革。目前大火主流的框架spring boot也的spring mvc部分也是基于拓展servlet完成的。回到之前的文章spring 实现了对servlet的封装…

SQL语句大全(详解)

SQL前言1 DDL1.1 显示所包含的数据库1.2 创建数据库1.3 删除数据库1.4 使用数据库1.4.1 创建表1.4.2 查看表的结构1.4.3 查看当前数据库下的所有表1.4.4 基础的增删改查1.4.4.1 删除表1.4.4.2 添加列1.4.4.3 修改表名1.4.4.4 修改数据类型1.4.4.5 修改列名和数据类型2 DML2.1 给…

http协议简介

http 1.简介 超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年美国人Ted Nelson构思了一种通过计算机处…

Python实现GWO智能灰狼优化算法优化循环神经网络分类模型(LSTM分类算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。1.项目背景灰狼优化算法(GWO),由澳大利亚格里菲斯大学学者 Mirjalili 等人于2014年提出来的一种群智能优…

【玩转c++】git的安装和使用以及可视化处理

本期主题:git的安装和使用(windows环境)博客主页:小峰同学分享小编的在Linux中学习到的知识和遇到的问题 小编的能力有限,出现错误希望大家不吝赐1.两个工具介绍第一个工具git,链接gitee或者github等代码托…

B端产品经理如何做好客户访谈?

用户访谈的价值我们在做用户研究的时候,经常会采用问卷调查和数据分析等定量的研究方法,从中我们可以搜集很多有价值的数据。但是,这些数据往往只停留在表层,没有办法基于用户的场景了解用户行为动机及诉求,很难找到用…

MySql的安装

版本选择 MySql目前使用最稳定的版本为5.7系列版本,尝鲜可以直接去官网链接整最新版本哦 本文使用8.0.32版本,注意这里看一下电脑位数,现在个人电脑一般都是64bit 点击223.6M那个压缩包开始下载,下面那个压缩包包含了测试相关内容一般是不需要的 这里有时会提示要你登录账户…

【REACT-@reduxjs/toolkit+react-redux+redux-persist状态管理】

REACT-reduxjs/toolkitreact-reduxredux-persist状态管理1. 依赖包安装2. 目录结构3. 修改Index.js4. createSlice()4.1 action处理4.1.1 创建collapsedSlice4.1.2 使用collapsedSlice4.2 异步action处理4.2.1 使用redux-thunk方式处理异步4.2.1.1 创建a…

Java+MySQL汽车租赁管理系统课程设计

wx供重浩:创享日记 对话框发送:汽车租赁系统 获取完整源码源文件视频演示文档资料等 一、 课程设计目的 1、综合运用Java程序设计课程和其他相关课程的理论和知识,掌握面向对象程序设计的一般方法、常用技术及技巧,树立良好的软件…

MongoDB安装(新版本保姆级教程)

前言MongoDB 是一个文档数据库,旨在简化开发和扩展。本篇文章介绍MongoDB 数据库及其 可视化工具 MongoDB Compass 的详细教程 (window10操作系统)下载安装包首先进入官网(社区版) ,在对应页面选择需要安装的版本 (这里下载当前适合版本号)传送门安装因为…