【LLM】人工智能应用构建的十大预训练NLP语言模型

news2025/2/24 13:17:48

在人工智能领域,自然语言处理(NLP)被广泛认为是阅读、破译、理解和理解人类语言的最重要工具。有了NLP,机器可以令人印象深刻地模仿人类的智力和能力,从文本预测到情感分析再到语音识别。

什么是自然语言处理?

语言模型在NLP应用程序的开发中起着至关重要的作用。然而,从头开始构建复杂的NLP语言模型是非常耗时的。出于这个原因,人工智能和机器学习的研究人员和开发人员对预先训练的语言模型深信不疑。迁移学习是一种用于训练模型的技术,该模型使用在另一个数据集上训练的数据集来执行任务。然后使用一个新的数据集来重新调整模型的用途,以执行不同的NLP功能。

经过预训练的模型:为什么它们有用?

然后,我们可以使用预训练的模型来解决我们自己的NLP问题,而不是从头开始构建模型。

预先训练的模型是为解决特定问题而设计的,需要进行一些微调,因此与编写新的语言模型相比,它们节省了大量时间和计算资源。

NLP语言模型根据其功能有几个预先训练的类别。

1. BERT (Bidirectional Encoder Representations from Transformers)

BERT是谷歌开发的一种用于NLP预训练的技术。对于语言理解,它依赖于一种新的神经网络架构,称为Transformer。该技术是为了解决神经机器翻译或序列转导的问题而开发的。因此,它非常适合于将输入序列转换为输出序列的任何任务,例如语音识别、文本到语音的转换等。

最初,转换器包含两种机制:一个是读取文本输入的编码器,另一个是创建预测的解码器。通过BERT,可以创建语言模型。到目前为止,只使用了编码器机制。

使用BERT算法可以有效地执行11个NLP任务。一个由BookCorpus的8亿个单词和维基百科的25亿个单词组成的数据集被用于训练。BERT的效率体现在谷歌搜索上,这是最好的例子之一。BERT用于其他谷歌应用程序中的文本预测,如谷歌文档和Gmail智能合成。

2. RoBERTa (Robustly Optimized BERT Pre-training Approach)

RoBERTa方法是一种预训练自监督自然语言处理算法的优化方法。通过学习和预测有意隐藏的文本部分,该系统基于BERT的语言掩蔽策略建立了语言模型。

在RoBERTa中,参数会被修改。例如,在训练时使用更大的小批量,下一句不再是BERT中的预训练目标,等等。RoBERTa等预训练模型擅长一般语言理解评估(GLUE)基准的所有任务,非常适合NLP训练任务,如识别问题、分析对话和分类文档。

3.OpenAI的GPT-3

GPT

使用GPT-3,您可以进行翻译、回答问题、创作诗歌、完成完形填空任务,以及即时解读单词。由于其最近的进步,GPT-3还用于生成代码和撰写新闻文章。

GT-3可以管理不同单词之间的统计信息。该模型中有超过1750亿个参数,这些参数是从45 TB的文本中学习的。因此,它是目前最大的预训练自然语言处理模型之一。

GPT-3的好处是可以在不需要微调的情况下处理下游任务。该模型可以使用“文本输入,文本输出”API重新编程,该API允许开发人员编写指令。

4. ALBERT

ALBERT

随着预先训练的语言模型变得越来越大,下游任务变得更加准确。然而,模型大小的增加导致训练时间变慢,以及GPU/TPU内存限制。谷歌开发了一个轻量级的BERT(来自变压器的双向编码器表示)来解决这个问题。使用了两种技术来减少其参数:

参数化嵌入:这里,隐藏层和词汇嵌入是分别测量的。

跨层共享参数:这可以防止参数数量随着网络的增长而增加。

通过使用这些技术,降低了内存消耗,提高了模型的训练速度。由于ALBERT在句子顺序预测方面的自我监督损失,这种损失是关于句子间连贯性的BERT限制。

5.XLNet

XLNET

使用去噪自动编码的语言模型,如BERT,比使用自回归方法的模型性能更好。这就是为什么有XLNet的原因,它使用自回归预训练。它允许学生学习双向上下文,并使用自回归预训练克服了BERT的局限性。许多任务,包括自然语言推理、文档排名、情感分析、问答等,都被认为优于XLNet的BERT。

6. OpenAI’s GPT2

除了在特定任务数据集上使用监督学习来完成诸如问答、机器翻译、阅读理解和摘要之类的任务外,其他自然语言处理任务通常也使用监督学习。在OpenAI的GPT2中,在一个名为WebText的数百万网页的新数据集上训练,即使没有明确的监督,语言模型也开始学习这些任务。该模型处理了各种各样的任务,并在各种各样的工作中产生了有希望的结果。

7.StructBERT

预训练的语言模型,如BERT(及其稳健优化版本RoBERTa),在自然语言理解(NLU)中获得了大量关注,在一系列NLU任务中实现了无与伦比的准确性,如自然语言推理、情感分类、问答和语义文本相似性。通过将语言结构纳入预训练,StructBERT将BERT扩展到一个基于Elman线性化探索工作的新模型。通过结构预训练,StructBERT系统在GLUE基准测试中产生了令人惊讶的结果(优于所有已发表的模型),SQUAD v1.1 F1得分为93.0,SNLI准确率为91.7。除了回答问题、情绪分析、文档摘要外,StructBERT还可以帮助完成各种NLP任务。

8. T5 (Text-to-Text Transfer Transformer)

T5

它已经成为自然语言处理(NLP)中一种强大的技术,可以先在数据丰富的任务上训练模型,然后为下游任务进行微调。迁移学习的有效性导致了方法、方法和实践的多样性。为了在NLP中为迁移学习设定一个新的标准,谷歌提出了一种统一的方法。因此,他们建议将NLP问题视为文本对文本问题。这样的框架允许不同的任务——摘要、情绪分析、问答和机器翻译——使用相同的模型、目标、训练过程和解码过程。一个名为Text to Text Transfer Transformer(T5)的模型使用网络抓取数据进行训练,以在许多NLP任务中得出最先进的结果。

9. ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately)

掩蔽语言建模(MLM)预训练方法使用掩蔽来替换输入中的一些令牌,然后训练模型以恢复令牌的原始含义。当应用于下游NLP任务时,它们往往会产生良好的结果,但通常需要大量的计算能力。专家们提出了一种称为替代令牌检测的替代方案,它更具样本效率。他们的方法用来自小型发电机网络的合理替代品取代了一些代币,而不是屏蔽输入。然后,专家们训练一个判别模型,以识别损坏输入中的每个令牌是否被生成器样本替换,而不是训练一个预测损坏令牌的原始身份的模型。

可以用T5中的所有输入令牌来替换屏蔽掉的输入令牌子集。生成替换令牌的生成器以最大似然进行训练,使其不具有对抗性,尽管与GAN相似。ELECTRA在计算上是高效的。

10. DeBERTa (Decoding-enhanced BERT with disentangled attention)

DeBERTa比BERT有两个主要改进,即增强的掩码解码系统和消除纠缠的注意力。通过对令牌/单词的内容和相对位置进行编码,DeBERTa将它们表示为两个向量。虽然DeBERTa的自我关注机制沿着内容到内容、内容到位置和位置到内容的路线运行,但BERT的自我关注仅由前两个元素组成。为了对令牌序列中的相对位置进行全面建模,作者提出还需要位置到内容的自我关注。此外,DeBERTa具有增强的掩码解码器,它为解码器提供了令牌/字的绝对和相对位置。在SuperGLUE基准测试中,DeBERTa的放大变体首次实现了比人类更好的性能。截至撰写本文时,德贝塔合奏团在SuperGLUE排名第一。

很明显,经过预训练的nlp语言模型有很多优点。这些模型对开发人员来说是一个很好的资源,因为它们可以帮助他们实现精确的输出,节省资源,并在人工智能应用程序开发上花费时间。

你如何选择对你的人工智能项目最有效的NLP语言模型?这取决于几个因素,包括项目的规模、数据集的类型和使用的培训方法。如果您想了解哪种NLP语言模型将帮助您实现最大准确性并缩短项目上市时间,请联系我们的人工智能专家。

这可以通过与他们建立免费咨询会议来实现,在此期间,他们可以指导您开发基于人工智能的应用程序的正确方法。

自我介绍

  • 做一个简单介绍,酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1347868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言实验5:结构体

目录 一、实验要求 二、实验原理 1. 普通结构体 1.1 显示声明结构体变量 1.2 直接声明结构体变量 ​编辑 1.3 typedef在结构体中的作用 2. 结构体的嵌套 3. 结构体数组 4. 指向结构体的指针 4.1 静态分配 4.2 动态分配 三、实验内容 1. 学生数据库 代码 截图 …

《数据库开发实践》之触发器【知识点罗列+例题演练】

一、什么是触发器? 1.概念: 简单来说触发器就是一种特殊的存储过程,在数据库服务器触发事件的时候会自动执行其SQL语句集。 2.构成四要素: (1)名称:要符合标识符命名规则 (2&am…

跳跃表原理及实现

一、跳表数据结构 跳表是有序表的一种,其底层是通过链表实现的。链表的特点是插入删除效率高,但是查找节点效率很低,最坏的时间复杂度是O(N),那么跳表就是解决这一痛点而生的。 为了提高查询效率,我们可以给链表加上索…

ORACLE Primavera Unifier v23.12 最新虚拟机(VM)分享下载

引言 根据上周的计划,我近日简单制作了一个基于ORACLE Primavera Unifier 最新版23.12的虚拟机演示环境,里面包括了unifier的全套系统服务 此虚拟系统环境仅用于演示、培训和测试目的。如要在生产环境中使用此虚拟机,请您与Oracle 销售代表联…

pngPackerGUI_V2.0是什么工具?

pngPackerGUI_V2.0是什么工具? png图片打包plist工具,手把手教你使用pngPackerGUI_V2.0此软件是在pngpacker_V1.1软件基础之后,开发的界面化操作软件,方便不太懂命令行的小白快捷上手使用。1.下载并解压缩软件,得到如…

关于“Python”的核心知识点整理大全53

目录 18.2.7 Django shell 注意 18.3 创建网页:学习笔记主页 18.3.1 映射 URL urls.py urls.py 注意 18.3.2 编写视图 views.py 18.3.3 编写模板 index.html 往期快速传送门👆(在文章最后): 感谢大家的支…

VitulBox中Ubuntu虚拟机安装JAVA环境——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项

前言 在进行之后操作是请下载好JDK,之后的内容是以Ubuntu虚拟机中安装java环境续写。 提示:以下操作是在虚拟机hadoop用户下操作的,并为安装java环境作准备 一、更新APT 为了确保Hadoop安装过程顺利进行,建议用hadoop用户登录…

MCS接口技术----定时/计数,中断

目录 一.中断系统相关寄存器 1.51单片机中断系统的总体结构: 2.中断源的中断级别(由高到低): 3.与中断有关的四个寄存器: (1)TCON---定时控制寄存器 (2)IE---中断允…

一二三应用开发平台文件处理设计与实现系列之3——后端统一封装设计与实现

背景 前面介绍了前端通过集成vue-simple-uploader实现了文件的上传,今天重点说一下后端的设计与实现。 功能需求梳理 从功能角度而言,实际主要就两项,一是上传,二是下载。其中上传在文件体积较大的情况下,为了加快上…

2013年第二届数学建模国际赛小美赛B题寄居蟹进化出人类的就业模式解题全过程文档及程序

2013年第二届数学建模国际赛小美赛 B题 寄居蟹进化出人类的就业模式 原题再现: 寄居蟹是美国最受欢迎的宠物品种,依靠其他动物的壳来保护。剥去寄居蟹的壳,你会看到它柔软、粉红色的腹部卷曲在头状的蕨类叶子后面。大多数寄居蟹喜欢蜗牛壳&…

Java集合/泛型篇----第五篇

系列文章目录 文章目录 系列文章目录前言一、说说LinkHashSet( HashSet+LinkedHashMap)二、HashMap(数组+链表+红黑树)三、说说ConcurrentHashMap前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通…

加强->servlet->tomcat

0什么是servlet jsp也是servlet 细细体会 Servlet 是 JavaEE 的规范之一,通俗的来说就是 Java 接口,将来我们可以定义 Java 类来实现这个接口,并由 Web 服务器运行 Servlet ,所以 TomCat 又被称作 Servlet 容器。 Servlet 提供了…

数据结构: 位图

位图 概念 用一个bit为来标识数据在不在 功能 节省空间快速查找一个数在不在一个集合中排序 去重求两个集合的交集,并集操作系统中的磁盘标记 简单实现 1.设计思想:一个bit位标识一个数据, 使用char(8bit位)集合来模拟 2.预备工作:a.计算这个数在第几个char b.是这个ch…

「实验记录」CS144 Lab1 StreamReassembler

目录 一、Motivation二、SolutionsS1 - StreamReassembler的对外接口S2 - push_substring序列写入ByteStream 三、Result四、My Code五、Reference 一、Motivation 我们都知道 TCP 是基于字节流的传输方式,即 Receiver 收到的数据应该和 Sender 发送的数据是一样的…

C#-CSC编译环境搭建

一.Microsoft .NET Framework 确保系统中安装Microsoft .NET Framework相关版本下载 .NET Framework 4.7 | 免费官方下载 (microsoft.com)https://dotnet.microsoft.com/zh-cn/download/dotnet-framework/net47 二.编译环境搭建 已经集成编译工具csc.exe,归档至gitcode,实现us…

L1-076:降价提醒机器人

题目描述 小 T 想买一个玩具很久了,但价格有些高,他打算等便宜些再买。但天天盯着购物网站很麻烦,请你帮小 T 写一个降价提醒机器人,当玩具的当前价格比他设定的价格便宜时发出提醒。 输入格式: 输入第一行是两个正整数…

数据隐私:技术和法律的双重挑战

当前,数据已成为企业和个人最宝贵的资产之一。然而,随着数据的广泛收集和共享,数据隐私问题也日益突出。保护个人信息的隐私不仅是法律规定的义务,也是维护社会公正、保护个人权益的必要措施。本文将从数据隐私的概念、重要性、面…

Linux学习第48天:Linux USB驱动试验:保持热情,保持节奏,持续学习是作为一个技术人员应有的基本素质和要求

Linux版本号4.1.15 芯片I.MX6ULL 大叔学Linux 品人间百味 思文短情长 最近更新的速度和频率大不如以前,主要原因还是自己有些懈怠了。学习是一个持续努力的过程,一旦中断,再想保持以往的状态可能要…

《MySQL系列-InnoDB引擎01》MySQL体系结构和存储引擎

文章目录 第一章 MySQL体系结构和存储引擎1 数据库和实例2 MySQL配置文件3 MySQL数据库路径4 MySQL体系结构5 MySQL存储引擎5.1 InnoDB存储引擎5.2 MyISAM存储引擎5.3 NDB存储引擎5.4 Memory存储引擎5.5 Archive存储引擎5.6 Federated存储引擎 6 连接MySQL6.1 TCP/IP6.2 命名管…

MySQL数据库学习一

1 什么是数据库的事务&#xff1f; 1.1 事务的典型场景 在项目里面&#xff0c;什么地方会开启事务&#xff0c;或者配置了事务&#xff1f;无论是在方法上加注解&#xff0c;还 是配置切面。 <tx:advice id"txAdvice" transaction-manager"transactionMa…