论文浅尝 | 少样本学习的语言模型的持续训练

news2024/12/25 9:34:00

be30bd99acfe779ad2b14937ab10519a.png

笔记整理:王贵涛,东南大学硕士,研究方向为自然语言处理

链接:https://github.com/UIC-Liu-Lab/CPT

一、动机

克服灾难性遗忘(CF)是持续学习(CL)的一个主要目标。目前有许多方法,例如基于正则化的方法、基于重放的方法以及基于参数隔离的方法。从头开始训练一个大型的语言模型是非常困难且昂贵的。在领域的最终任务微调之前,使用一个大的未标记领域语料库进行后训练(Post Training),即领域自适应预训练或预微调,可以比直接微调预训练模型获得更好的结果。使用语言本身不断变化的发展,社会事件和来自不同领域的知识来逐步更新语言数据变得越来越重要。由于人类在增量学习方面非常有效,如果能够很少或不被遗忘地模仿这种人类能力,将显著推动人工智能研究的发展。

二、贡献

本文提出了利用未标记域语料库序列增量后训练语言模型,在不忘记其现有知识的情况下不断扩展语言模型的问题。其目标是提高这些领域的少镜头最终任务学习。由此产生的系统被称为CPT(持续后训练)。

三、方法

本研究提出方法CPT(Continual Post Training),是一种用于后训练的CL系统。从预训练的多模态模型开始,使用未标记的语料库对域序列的多模态进行后训练。一旦一个任务被训练好了,它的数据就不再可访问了。在任何时候,所产生的持续训练后的多模态模型都可以被训练领域中的最终任务所使用。这是在CL的任务增量学习设置中,当稍后需要使用任务的学习模型时,提供任务ID 。

CPT对多模态模型进行持续的后训练,通过插入到预训练模型的每个transformer层中的两个持续学习插件(称为CL插件)的模块来实现的。CL插件的灵感来自于适配器。虽然适配器可以隔离不同的任务,但需要为每个任务分配一个新的适配器,并且在不同任务的适配器之间不能共享任何知识。然而,CL插件是一个持续学习系统,它可以通过所有领域共享的适配器来学习一系列任务。图1给出了添加到预训练模型中的两个CL插件的CPT架构。

3b7c0d258ccf03e70955ca7b5ba710fb.png

图1 加入CL插件的CPT结构

在后训练任务中,只训练两个CL插件。原始预训练过的多模态模型的组成部分是固定的。而在最终任务的微调中,所有组件都是可训练的。CL插件是一个带有任务掩码机制的双层全连接网络。它需要两个输入:来自transformer层的前馈层的隐藏状态和任务增量学习所需的任务ID  。在一个CL插件中,任务掩码表示特定于任务的神经元,用于处理CF。由于任务掩码是可微的,所以整个CPT可以进行端到端训练。

学习新领域包括两个主要步骤:(1)学习领域  及其掩码,以供将来使用。(2)在每个旧任务的每一层应用掩码,阻止梯度流,保护旧任务的模型。

(1)学习任务掩码以克服CF。在学习每个任务  时,在CL插件中的每一层上训练一个伪二进制掩码  ,表明对该任务很重要的神经元,借用硬注意的想法,并利用任务ID嵌入来训练掩码。对于任务ID  ,其嵌入  由可微的确定性参数组成,可以与网络的其他部分一起学习。为了从  中生成任务掩码  ,使用Sigmoid作为一个伪门(掩码)函数。  的计算方法如下:

096f1c8df8f9a49eb3f844f366d66218.png

其中 τ 是一个温度变量,从1线性退回到 τ 。

在正向传递中,给定每个层的输出  ,按对应元素乘以掩码  :

298a6ee21552a60d2d24d517ee343dfb.png

CL插件中最后一层的掩蔽输出  通过跳跃连接输入到多模态预训练模型的下一层。在学习任务  之后,保存最终的  并添加到集合{  }中。

(2)应用任务掩码。在学习新任务  之前,首先在所有旧任务iprev的每一层神经元上积累并设置掩码  ,这样在反向传播中,任务  的梯度  就不会流向这些神经元。由于  是伪二进制,使用最大池化来实现积累和条件梯度:

ba73aba6a7defdddae3600b567c6b546.png

与MaxPool({  })中的1项对应的梯度被设置为0以阻止梯度流,而其他梯度保持不变。这样,旧任务中的神经元就受到了保护。

四、实验

本文使用四个未标注的领域数据集:Yelp Restaurant (Xu et al., 2019), AI Papers (Loet al., 2020), ACL Papers (Lo et al., 2020), AGNews (Zhang et al., 2015) 及其4个相应的最终任务分类数据集。

本文使用6个非持续学习方法和7个自适应的持续学习方法作为基线。

非持续学习基线包括:(1) RoBERTa;(2)Adapter,直接微调预训练模型或适配器;(3) RoBERTa-ONE;(4)Adapter-ONE;(5)Prompt-ONE,使用单独的网络为每个任务建立一个模型,没有知识转移或灾难性遗忘。(6)DEMIX,为每个任务训练一个单独的适配器,并从其之前最相似的先前任务适配器初始化适配器。

7个适应的持续学习基线包括(7) RoBERTa-NCL和(8)Adapter-NCL,一个接一个对领域进行后训练,没有处理灾难性遗忘和转移的机制。其他的是最先进的持续学习基线,调整以适应持续的后训练。

实验结果如1表所示:

表1 实验结果

e93fb1ff4aad0900995fb68f47274101.png

五、总结

本文提出了利用未标记域语料库连续对具有域序列的语言模型进行后训练。并提出了一种有效的计算方法(CPT)。来自任何领域后训练的最终任务都可以微调生成的语言模型。实验结果证明了CPT的有效性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

57d496adc2d3790c598805c35c02c86d.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/744323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

施密特(Gram-Schmidt)正交化

引自于点击打开 如果没有空间向量解析几何基础,理解起来有些困难,因此稍微解说一下。 两个向量的正交变换我们分为3步: (a1,a1)/ (|a1| * |a2|)是a1,a2之间的夹角的cos值cos值乘以|a2|后,得到a2在a1上映射的长度值&…

从浏览器进程角度分析从输入URL到页面显示发生了什么?

一、处理用户在浏览器地址栏中输入的URL(统一资源定位符) 用户在地址栏输入内容并按下回车,浏览器会检查输入是否符合 URL 规则,以Chrome为例,它会根据相应的规则,将地址栏输入解析成搜索请求或者URI请求。…

YOLOv8实战垃圾分类目标检测 (视频课程)

课程链接:https://edu.csdn.net/course/detail/38804 垃圾分类是一项利国利民的民生工程,需要全社会的共同参与。 YOLOv8是前沿的目标检测技术,它基于先前 YOLO 版本在目标检测任务上的成功,进一步提升性能和灵活性。 本课程将手…

已解决 BrokenPipeError: [Errno 32] Broken pipe

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

第三次CCF计算机软件能力认证

第一题:门禁系统 涛涛最近要负责图书馆的管理工作,需要记录下每天读者的到访情况。 每位读者有一个编号,每条记录用读者的编号来表示。 给出读者的来访记录,请问每一条记录中的读者是第几次出现。 输入格式 输入的第一行包含一个整…

《前端开发 实践之 腾讯地图API 学习》

目录 腾讯地图基础入门方式一方式二 事件监听监听地图瓦片加载完成事件 移除缩放控件 & 旋转控件 & 比例尺控件初始化marker图层创建信息窗点击地图拾取坐标打点标记反解析成详细地址根据输入详细地址 反解析成经纬度 腾讯地图 腾讯地图API学习-官方地址:ht…

浅谈Web前端开发软件包管理器—Bower的基本使用

前言 Bower 是一个客户端的软件包管理器,它可用于搜索、安装和卸载如 JavaScript、HTML、CSS 之类的网络资源,Bower 是 Web 开发中的一个前端文件包管理器,类似于 Node 模块的 npm 包管理器,bower 依赖于 Git、Node 和 npm。 安…

HarmonyOS课程尝鲜计划,优享特权大礼包

报名入口:https://developer.huawei.com/consumer/cn/activity/901689042385499023

Mendix Excel导入组件的分析和应用

一、前言 企业在发展的过程中会使用各种各样的系统,其中很多系统用了5-10年,我们称之为遗留系统存在诸多风险:维护耗时、中断频繁、用户不友好、与新软件的兼容性问题等。总有一天,这些庞大的问题会垄断IT资源,使数字…

事物的属性与观察者有关吗?

我们通常对世界的看法是以分析和概念为基础的,我们倾向于将事物划分为各种相对的存在和概念。然而,有些领域超越了这种相对的观点,揭示了所有现象的无常性、空虚性和无自性,认识到它们的真实本质。如在人机环境系统中就认为&#…

【车载Android】多用户(一) - Linux用户与Android多用户

现如今手机这样的移动设备已经是人手一台了,但是汽车依然是以家庭为单位使用,不同的家庭成员对于汽车的使用存在着差异,比如空间、功能、影音风格等。因此,“智能汽车”需要具备千人千面的特性,能够适应不同的用户和场…

Linux中Makefile详细教程

目录 Makefile Makefile的介绍 Makefile简单的编写 .PHONY 问题: 如果只执行make,它执行的是Makefile里哪一段语句呢? 怎么知道我的可执行程序是最新的呢? Makefile编译多个文件 进度条小程序 Makefile Makefile的介绍 …

Acwing.860 染色法判定二分图(二分图染色法)

题目 给定一个n个点m条边的无向图,图中可能存在重边和自环。 请你判断这个图是否是二分图。 输入格式 第一行包含两个整数n和m。 接下来m行,每行包含两个整数u和v,表示点u和点v之间存在一条边。 输出格式 如果给定图是二分图&#xff0c…

openpnp - 汇川 Inovance IS620PS2R8I-IAB-C的参数读取

文章目录 openpnp - 汇川 Inovance IS620PS2R8I-IAB-C的参数读取概述笔记伺服和配套电机型号官方伺服调试软件笔记H00H01H02H03H04H05H06H07H08H09H0AH0BH0CH0DH0FH11H12H16H17H30H31自定义组备注END openpnp - 汇川 Inovance IS620PS2R8I-IAB-C的参数读取 概述 设备中用到了…

Enterprise:使用 MySQL connector 同步 MySQL 数据到 Elasticsearch

Elastic MySQL 连接器是 MySQL 数据源的连接器。它可以帮我们把 MySQL 里的数据同步到 Elasticsearch 中去。在今天的文章里,我来详细地描述如何一步一步地实现。 在下面的展示中,我将使用 Elastic Stack 8.8.2 来进行展示。 无缝集成:将 Ela…

两只小企鹅(Python实现)

目录 1 和她浪漫的昨天 2 未来的旖旎风景 3 Python完整代码 1 和她浪漫的昨天 是的,春天需要你。经常会有一颗星等着你抬头去看; 和她一起吹晚风吗﹖在春天的柏油路夏日的桥头秋季的公园寒冬的阳台; 这世界不停开花,我想放进你心里一朵&#…

docker 里面各种 command not found 总结

一、ip:command not found 执行命令: apt-get update & apt-get install -y iproute2 二、yum:command not found 执行命令: apt-get update & apt-get install -y yum 三、ping:command not found 执行命…

113、基于51单片机的智能电子密码锁控制系统设计(程序+原理图+PCB源文件+Proteus仿真+参考论文+开题报告+设计资料+焊接指导书+元器件清单等)

摘 要 在日常的生活和工作中, 住宅与部门的安全防范、单位的文件档案、财务报表以及一些个人资料的保存多以加锁的办法来解决。具有防盗报警等功能的电子密码锁代替密码量少、安全性差的机械式密码锁已是必然趋势。随着科学技术的不断发展,人们对日常生活中的安全保…

多元融合:流媒体传输网络的全盘解法

我们在寻找「网络」的全盘解法。 音视频数字化在消费领域的红利俨然见顶,而产业级视频应用激活了更多场景下的业务模式。与此同时,音视频客户也从单一的业务需求,趋向于多种业务并行存在的需求。 固有的网络能满足新兴的业态吗?延…

帧同步实现PuppetMaster布娃娃系统的问题

1)帧同步实现PuppetMaster布娃娃系统的问题 ​2)如何屏蔽Unity打包在IQOO安卓手机上出现一侧是黑边的现象 3)SLG或者策略游戏的联盟边界线是如何实现的 这是第343篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖…