论文阅读笔记-Pre-trained Models for Natural Language Processing: A Survey

news2024/10/7 12:46:12

前言

预训练模型给下游任务带来的效果不言而喻,有了预训练模型,我们可以使用它来加速解决问题的过程。正如论文中所说的那样,预训练模型(PTMs)的出现将自然语言处理(NLP)带入了一个新时代。本篇论文基于分类从四个角度对现有PTMs进行系统分类,描述如何使PTMs的知识适应下游任务,然后概述了PTMs未来研究的一些潜在方向,通过本篇综述,来学习了解相关预训练模型。

背景

  • 第一代 PTMs 旨在学习词嵌入,由于下游的任务不再需要这些模型的帮助,因此为了计算效率,它们通常采用浅层模型,如 Skip-Gram 和 GloVe。尽管这些经过预训练的嵌入向量也可以捕捉单词的语义,但它们却不受上下文限制,只是简单地学习「共现词频」。这样的方法明显无法理解更高层次的文本概念,如句法结构、语义角色、指代等等。
  • 第二代 PTMs 专注于学习上下文的词嵌入,如 CoVe、ELMo、OpenAI GPT 以及 BERT。它们会学习更合理的词表征,这些表征囊括了词的上下文信息,可以用于问答系统、机器翻译等后续任务。另一层面,这些模型还提出了各种语言任务来训练 PTMs ,以便支持更广泛的应用,因此它们也可以称为预训练语言模型。

下图说明了NLP的通用神经体系结构,词嵌入有两种:Non-contextual Embeddings(非上下文嵌入)和Contextual Embeddings(上下文嵌入)。它们之间的区别在于,单词的嵌入是否根据出现的上下文而动态变化。
在这里插入图片描述
之前 NLP 任务一般会预训练 e e e 这些不包含上下文信息的词嵌入,我们会针对不同的任务确定不同的上下文信息编码方式,以构建特定的隐藏向量 h h h,从而进一步完成特定任务。但对于预训练语言模型来说,我们的输入也是 e e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring源码学习:SpringMVC(4)DispatcherServlet请求入口分析

目录 前言HttpServlet &FrameworkServletHttpServlet #serviceFrameworkServlet#processRequest DispatcherServlet#doServicedoDispatchcheckMultipartgetHandlerAbstractHandlerMapping#getHandlerRequestMappingInfoHandlerMapping#getHandlerInternalAbstractHandlerMe…

Excel-查找和引用数据-VLOOKUP 和 HLOOKUP 函数

在 Excel 中,VLOOKUP 和 HLOOKUP 是用于查找和引用数据的函数。下面是它们的基本用法: VLOOKUP 用途:在表格的第一列中查找某个值,并返回该值所在行的指定列中的数据。 语法: VLOOKUP(lookup_value, table_array, …

多模态大语言模型(MLLM)-Blip2深度解读

前言 Blip2是一个多模态大语言模型,因其提出时间较早(2023年),且效果较好,很快成为一个标杆性工作。Blip2中提出的Q-former也成为衔接多模态和文本的重要桥梁。 Blip2发表时间是2023年,现在引用已经3288了…

产品经理内容分享(一):AI产品经理需必备那些能力

目录 必备的AI技术知识 第一章:AI产品经理是否需要懂技术及其程度 第二章:AI产品经理必备的AI技术基础知识——基础算法与机器学习方法 第三章:AI产品经理必须要懂的AI技术知识——场景应用 第四章:AI算法与模型的关系 第五…

PhotoMaker部署文档

一、介绍 PhotoMaker:一种高效的、个性化的文本转图像生成方法,能通过堆叠 ID 嵌入自定义逼真的人类照片。相当于把一张人的照片特征提取出来,然后可以生成你想要的不同风格照片,如写真等等。 主要特点: 在几秒钟内…

求1000以内的完数

题目:一个数如果恰好等于他的因子之和(包括1,但不包括这个数),这个数就是完数。编写算法找出1000之内的所有完数,并按下面格式输出其因子:28 its factors are 1,2,4,7,14 代码如下:…

Dell服务器电源配置

Dell服务器电源配置规则 PowerEdge 电源设置

医院综合服务系统小程序的设计

管理员账户功能包括:系统首页,个人中心,患者管理,医生管理,就诊信息管理,科室信息管理,挂号信息管理,系统管理 微信端账号功能包括:系统首页,订单排队&#…

《PyTorch深度学习快速入门教程》学习笔记(第15周)

目录 摘要 Abstract 1. 安装Anaconda 2. 查看显卡驱动 3. 安装Pytorch 4. Pytorch加载数据 5. 常用数据集两种形式 6. 路径直接加载数据 7. Dataset加载数据 摘要 本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第一周的学习成果,主要聚焦于py…

微服务Sleuth解析部署使用全流程

目录 1、Sleuth链路追踪 1、添加依赖 2、修改日志配置文件 3、测试 2、zipkin可视化界面 1、docker安装 2、添加依赖 3、修改配置文件 4、查看页面 5、ribbon配置 1、Sleuth链路追踪 sleuth是链路追踪框架,用于在微服务架构下开发,各个微服务之…

轻松部署大模型:Titan Takeoff入门指南

轻松部署大模型:Titan Takeoff入门指南 在人工智能的快速发展中,处理自然语言处理(NLP)任务的大规模语言模型(LLM)至关重要。然而,部署这些模型往往具有挑战性,需要高性能的硬件和优…

设计模式之适配器模式(Adapter)

一、适配器模式介绍 适配器模式(adapter pattern )的原始定义是:将类的接口转换为客户期望的另一个接口, 适配器可以让不兼容的两个类一起协同工作。 适配器模式是用来做适配,它将不兼容的接口转换为可兼容的接口,让原本由于接口…

YOLOv10改进,YOLOv10添加CA注意力机制,二次创新C2f结构,助力涨点

改进前训练结果: 二次创新C2f结构训练结果: 摘要 在本文中,提出了一种新的移动网络注意力机制,将位置信息嵌入到信道注意力中称之为“协调注意力”。与渠道关注不同通过 2D 全局池将特征张量转换为单个特征向量,坐标注意力因子将通道注意力转化为两个 1D 特征编码过程…

如何在AI时代成为优秀的AI产品经理?全面解析与全套学习路径分享!!!

前言 在当前人工智能技术飞速发展的时代背景下,AI产品经理无疑成为了职场中的一片蓝海。随着AI技术在各行各业的广泛应用,AI产品经理的角色变得越来越重要,成为了众多求职者眼中的优质赛道。那么,如何在AI的大环境下成为一名优秀…

李宏毅深度学习-自注意力机制

输入是向量序列的情况 在图像识别的时候,假设输入的图像大小都是一样的。但如果问题变得复杂,如图6.2所示,输入是一组向量,并且输入的向量的数量是会改变的,即每次模型输入的序列长度都不一样,这个时候应该…

搬砖 网盘一键转存源码

网盘一键转存源码,免费资源没测试 网盘一键转存源码,可以将您的百度网盘资源一键转存到。并支持后台设置开屏广告 源码截图: 下载地址: https://yuncv.lanzouw.com/i8dZk2btyl4h

六自由度机械重力补偿控制

1.动力学方程 六自由度机械臂动力学方程形式如下: 进行重力补偿,就是在驱动力矩中对重力G进行补偿,从而消除重力的影响,这样就能够在进行闭环控制的时候避免重力影响带来的大超调问题,使得机器人更好的实现轨迹跟踪控…

如何使用BlinkShot.io生成照片

在当今的数字时代,AI生成照片已经成为一项令人惊叹的技术。而BlinkShot.io就是这样一个平台,它可以让你轻松生成各种类型的照片。以下是详细步骤,教你如何使用BlinkShot.io生成照片。 第一步:访问网站 首先,打开Blin…

python调用父类同名成员

语法 print(f"父类的厂商是:{Phone.producer}“) Phone.call_by_5g(self) print(f"父类的厂商是:{super().producer}”) print(f"父类的序列号是:{super().IMEI}") super().call_by_5g() print(“关闭CPU单核模式&…

AIGC下的数据战略,助力还是阻力?

AIGC下的数据战略,助力还是阻力? 前言一、生成式AI的崛起与影响二、企业数据战略的关键要点(一)找准应用方向,激发创新价值(二)准备专有数据,确保数据安全(三&#xff09…