机器学习:self supervised learning- Recent Advances in pre-trained language models

news2024/11/24 4:03:03

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

背景

在这里插入图片描述

Autoregressive Langeuage Models

不完整的句子,预测剩下的空的词语
在这里插入图片描述

  • sentence completion
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Transformer-based ALMs

在这里插入图片描述

Masked language models-MLMs

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
预训练模型能将输入文本转成hidden feature representation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
模型参数最开始是从预训练模型中拿到,然后给予具体任务再微调,中间模型参数可固定也可以微训练
在这里插入图片描述

  • 相关paper
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

The Problems of PLMs

问题1:有label的数据少

在这里插入图片描述

问题2:模型慢慢越来越大了,推理费时间

在这里插入图片描述

在这里插入图片描述
4个任务需要4倍显存大小
在这里插入图片描述
推理耗时长

解决办法

Labeled Data Scarcity——Data-efficient-tuning

在这里插入图片描述
当数据少的时候,可能模型无法学习到上述任务功能
在这里插入图片描述
将数据转成自然语言的prompt,模型能更容易知道自己应该做什么
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

  • 1 A prompt template: 告诉模型要做什么事,这里是填充中间的mask
    在这里插入图片描述
  • 2-一个plm模型执行任务,输出概率最大的可能情况

在这里插入图片描述

  • verbalizer: 将标签和概率映射起来
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    当标注数据比较少的话,标准微调是比较难训练好的;
    在这里插入图片描述
    在这里插入图片描述

few-shot learning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

semi-supervised learning

在这里插入图片描述
在这里插入图片描述

  • PET
    • 第一步:设计不同的prompt
      在这里插入图片描述
    • 第二步:使用多个训练的模型去预测标签,将预测的结果加起来作为总的预测
      在这里插入图片描述
    • 第三步:使用标准的训练方法,soft label
      在这里插入图片描述

Zero-shot learning

在这里插入图片描述
在这里插入图片描述
大模型够大,就可以实现zero-shot
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述

  • 蒸馏
  • 提纯到下游任务

在这里插入图片描述
共享相关transfomer layers的参数

PLMs Are Gigantic——Reducing the Number of Parameters

在这里插入图片描述
转变为共用一个bert模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Adapter

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
只更新adapter,不更新transformer;adapter做的事情是先降维,然后再升维,产生△h
在这里插入图片描述
每个下游任务只学习它自己的△h, transformer层的参数h不动,这样能大大减少需要的显存空间。

LoRA

在这里插入图片描述
在这里插入图片描述
先把低维向量变成高维,然后高维再变成低维。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Lora效果比adaper效果好,不会增加模型层数,参数量比adapter要小。

Prefix Tuning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在标准的自注意力结构的前面插了一些东西
在这里插入图片描述
在infer的时候把蓝色的部分丢掉
在这里插入图片描述

Soft Prompting

在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Early Exit

在这里插入图片描述
用整个模型跑花很长时间
在这里插入图片描述
在这里插入图片描述
第一层的分类器信心不足,到第二层:
在这里插入图片描述
如果信心够了,就不用后面的过程了,以节约时间
在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述

Closing Remarks

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/761123.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何快速制作一个奶茶店小程序商城

如果你是一个奶茶店的老板,你可能会考虑开设一个小程序商城来增加销售渠道和提升品牌形象。那么,如何快速制作一个奶茶店小程序商城呢?下面我们将介绍一个简单的步骤供你参考。 首先,你需要登录乔拓云平台进入商城后台管理页面。在…

数据结构真题

数据结构真题 1. A. Bills of Paradise 线段树并查集四个操作: D x。标记大于等于 x 的第一个未标记的 a i a_i ai​;若没有,则不操作.F x。查询大于等于 x 的第一个未标记的 a i a_i ai​;若没有,则输出 1 0 12…

《UNUX环境高级编程》(9)进程关系

1、前言 2、终端登录 在早期的UNIX系统,用户用哑终端(用硬连接到主机)进行登录,因为连接到主机上的终端设备数是固定的,所以同时登录数也就有了已知的上限。 随着位映射图像终端的出现,开发出了窗口系统&…

数学分析:对偶映射

这个其实就是我们一致讨论的对偶映射,换了个马甲,差点认不出来了。本来是V->R 要变成U->R,就需要一个反向的V*->U*的映射。 注意这个式子,t属于U,phit转到了V,但是坐标也发生了变化,这…

2023西南赛区ciscn -- do you like read

Attack 打开后一个商城页面 在login as admin那里有个登录页面,账号admin,密码爆破即可得到admin123 也可以在book.php?bookisbn1进行sql注入得到密码,这里发现是没有注入waf的 登录进来是一个Book List的管理页面,同时在审计源…

【C语言】初阶指针(详细版)

👦个人主页:Weraphael ✍🏻作者简介:目前正在回炉重造C语言(2023暑假) ✈️专栏:【C语言航路】 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你…

RSA原理

RSA的历史 RSA加密算法是一种非对称加密算法,在公开密钥加密和电子商业中被广泛使用。RSA是由罗纳德李维斯特(Ron Rivest)、阿迪萨莫尔(Adi Shamir)和伦纳德阿德曼(Leonard Adleman)在1977年一…

本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT

OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数是指…

Lightening Network for Low-Light Image Enhancement 论文阅读笔记

这是2022年TIP期刊的一篇有监督暗图增强的文章 网络结构如图所示: LBP的网络结构如下: 有点绕,其基于的理论如下。就是说,普通的暗图增强就只是走下图的L1红箭头,从暗图估计一个亮图。但是其实这个亮图和真实的亮图…

54 # 可写流基本用法

内部也是基于 events 模块,fs.open、fs.write,如果文件不存在就会创建文件,默认会清空文件并写入 注意点:可写流的 highWaterMark 表示预期占用的内存(达到或者超过预期后返回的值就是false),默…

确认应答机制与超时重发机制【TCP原理(笔记一)】

文章目录 通过序列号与确认应答提高可靠性正常的数据传输数据包丢失的情况确认应答丢失的情况发送的数据 重发超时如何确定 通过序列号与确认应答提高可靠性 在TCP中,当发送端的数据到达接收主机时,接收端主机会返回一个已收到消息的通知。这个消息叫做…

TCP的三次握手以及以段为单位发送数据【TCP原理(笔记二)】

文章目录 连接管理TCP以段为单位发送数据 连接管理 TCP提供面向有连接的通信传输。面向有连接是指在数据通信开始之前先做好通信两端之间的准备工作。 UDP是一种面向无连接的通信协议,因此不检查对端是否可以通信,直接将UDP包发送出去。TCP与此相反&am…

2023-07-16:讲一讲Kafka与RocketMQ中零拷贝技术的运用?

2023-07-16:讲一讲Kafka与RocketMQ中零拷贝技术的运用? 答案2023-07-16: 什么是零拷贝? 零拷贝(英语: Zero-copy) 技术是指计算机执行操作时,CPU不需要先将数据从某处内存复制到另一个特定区域。这种技术通常用于通过网络传输…

layui的基本使用-Helloworld 三把斧的一把斧头的熟练起来

该笔记记录如何使用layui的模块化方法。 访问layui官网 Layui - 极简模块化前端 UI 组件库下载官网的layui压缩包文件,解压到本地文件夹,文件结构如下: vscode创建项目; 位置 测试写了三个文件夹,才测试出来bug 坑所在…

【深度学习笔记】偏差与方差

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记,视频由网易云课堂与 deeplearning.ai 联合出品,主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习,视频的链接如下: 神经网络和…

JAVASE-Java概述与环境搭建(一)

文章目录 一.内容摘要二.引言2.1.何为编程?2.2.什么是计算机编程语言?2.3.编程语言发展史2.3.1.打孔机2.3.2.汇编语言2.3.3.高级语言2.3.3.1.C语言2.3.3.2.C语言2.3.3.3.PHP语言2.3.3.4. .NET语言2.3.3.5. Ruby2.3.3.6. python2.3.3.7. Java 2.3.4.编程语…

代码随想录算法训练营之JAVA|第四天| 24. 两两交换链表中的节点

今天是第 天刷leetcode,立个flag,打卡60天。 算法挑战链接 力扣http://24. 两两交换链表中的节点 第一想法 看到题目的第一想法是交换节点,于是赶紧拿出草稿本画了出来。这不简简单单。 1 -> 2 ->3 ->..... 已有的条件&#x…

WAF相关知识及安全狗的部署和绕过

文章目录 一:WAF基础知识(一) WAF简介(二) WAF工作原理1) 流量识别2) 攻击检测3) 攻击防御4) 记录日志 (三) WAF分类(四) …

云原生|kubernetes|kubernetes集群部署神器kubekey的初步使用(centos7下的kubekey使用)

前言: kubernetes集群的安装部署是学习kubernetes所需要面对的第一个难关,确实是非常不好部署的,尤其是二进制方式,虽然有minikube,kubeadm大大的简化了kubernetes的部署难度,那么,针对我们的学习环境或者…

[Linux笔记]常见命令(持续施工)

常见命令 文件与目录命令 pwd 打印当前所在路径。 建议每次登录后,或长时间未操作时,进行操作前都先执行pwd以确认当前位置。 cd 进入指定目录(change direct) .当前路径 ..上级路径 windows下,\为路径分隔符 Linux下,/为路径…