背景
Autoregressive Langeuage Models
不完整的句子,预测剩下的空的词语
- sentence completion
Transformer-based ALMs
Masked language models-MLMs
预训练模型能将输入文本转成hidden feature representation
模型参数最开始是从预训练模型中拿到,然后给予具体任务再微调,中间模型参数可固定也可以微训练
- 相关paper
The Problems of PLMs
问题1:有label的数据少
问题2:模型慢慢越来越大了,推理费时间
4个任务需要4倍显存大小
推理耗时长
解决办法
Labeled Data Scarcity——Data-efficient-tuning
当数据少的时候,可能模型无法学习到上述任务功能
将数据转成自然语言的prompt,模型能更容易知道自己应该做什么
- 1 A prompt template: 告诉模型要做什么事,这里是填充中间的mask
- 2-一个plm模型执行任务,输出概率最大的可能情况
- verbalizer: 将标签和概率映射起来
当标注数据比较少的话,标准微调是比较难训练好的;
few-shot learning
semi-supervised learning
- PET
- 第一步:设计不同的prompt
- 第二步:使用多个训练的模型去预测标签,将预测的结果加起来作为总的预测
- 第三步:使用标准的训练方法,soft label
- 第一步:设计不同的prompt
Zero-shot learning
大模型够大,就可以实现zero-shot
总结
- 蒸馏
- 提纯到下游任务
共享相关transfomer layers的参数
PLMs Are Gigantic——Reducing the Number of Parameters
转变为共用一个bert模型
Adapter
只更新adapter,不更新transformer;adapter做的事情是先降维,然后再升维,产生△h
每个下游任务只学习它自己的△h, transformer层的参数h不动,这样能大大减少需要的显存空间。
LoRA
先把低维向量变成高维,然后高维再变成低维。
Lora效果比adaper效果好,不会增加模型层数,参数量比adapter要小。
Prefix Tuning
在标准的自注意力结构的前面插了一些东西
在infer的时候把蓝色的部分丢掉
Soft Prompting
总结
Early Exit
用整个模型跑花很长时间
第一层的分类器信心不足,到第二层:
如果信心够了,就不用后面的过程了,以节约时间
总结
Closing Remarks